По своей сути искусственный интеллект — это продукт двух компонентов: первый — данные, второй — алгоритмы, пишут на портале Datanami Рагид Эль-Яфури, стратег по цифровой трансформации и технический консультант, и Дэвид Лэнс, архитектор решений, Bottle Rocket Studios.
Существуют различные типы алгоритмов, каждый из которых потенциально обладает определенным уровнем сложности. Среди них выделяются нейронные сети — многослойные алгоритмы, созданные для имитации человеческого подхода к решению проблем.
Однако топливом для ИИ являются данные. ИИ нужны огромные объемы данных, чтобы начать генерировать полезные выводы. Большие языковые модели (LLM) — это подмножество ИИ, в котором алгоритм предназначен для обучения на основе огромного количества разнообразных данных для генерации нового мультимодального контента, включая текст, изображение, аудио, видео, код и 3D — отсюда и генеративный ИИ. Без алгоритма большие данные — это просто шум. А без данных алгоритм не имеет значения.
Хотя мы испытываем от генеративного ИИ чувство, похожее на волшебство, на самом деле это сложная система, которая отражает предоставленные данные.
На заре развития ИИ все создавали свои собственные модели с нуля. Но такой подход был дорогим и отнимал много времени. Теперь крупные компании выпускают базовые модели, которые другие компании могут использовать в качестве основы. Для дополнения базовой модели они могут предоставлять свои собственные данные, что позволяет адаптировать ответы, переходя от общих к желаемым собственным результатам. Это делает управление данными более важным для организаций, желающих использовать ИИ, чем разработку алгоритмов.
Работа с ИИ-моделью
Ниже приводится краткое руководство по определению, выбору и приобретению LLM.
- Выбор модели. Как уже упоминалось выше, крупные компании разрабатывают базовые модели, доступные для публичного использования. К ним относятся хорошо известные ChatGPT, OPT, Alexa и CodeGen, и это лишь некоторые из них. Многие другие открыты, бесплатны и доступны для загрузки и размещения в локальных средах. HuggingFace — хороший репозиторий для поиска моделей с открытым исходным кодом. Организациям следует выбрать несколько моделей, чтобы протестировать и проверить, как они работают с их потребностями и доступными данными.
- Проверка модели. После выбора некоторых моделей важным следующим шагом является обеспечение их соответствия требованиям бизнеса и нормативно-правовой базы. Частью проверки является понимание лицензионных соглашений. Существуют различные рекомендации относительно использования коммерческой модели или развертывания модели на частной основе.
- Размер модели. Создаваемые модели обычно имеют различные размеры (количество используемых параметров). При выборе необходимо учитывать компромиссы. Модели меньшего размера (7 млрд. параметров и ниже) занимают меньше места на диске и часто обеспечивают более быстрое время отклика, но не обладают той точностью, которую может обеспечить модель большего размера. Большие модели (обычно 60 млрд. параметров и выше) обеспечивают наиболее точные ответы, но требуют гораздо больших вычислительных возможностей, что влияет на аппаратные решения. Чем больше модель, тем, как правило, больше GPU требуется для ее обработки. Существуют также модели среднего размера, которые представляют собой золотую середину для многих предприятий.
- Обучение модели. После того как модель выбрана и проверена, начинается самое интересное — обучение модели на собственных данных. Данные должны быть разделены на обучающие, проверочные и тестовые наборы. Обучающий набор предназначен для создания первоначальной базы знаний. Проверочный набор служит для тонкой настройки и оптимизации производительности с помощью гиперпараметров — параметров, используемых для контрольных измерений. Тестовый набор — это данные, которые не участвовали в обучении модели. Он нужен для того, чтобы убедиться, что модель хорошо обобщается на неизвестных ей данных, и избежать чрезмерной подгонки, когда модель учится работать на обучающих данных, а затем не может обобщить новые запросы. Это признак того, что модель стала слишком специфичной.
Чтобы обучить алгоритм на собственных данных организации, необходимы такие решения, как LlamaIndex и LangChain. Обе библиотеки хорошо подходят для ввода данных, индексирования и формирования запросов. LangChain предлагает несколько дополнительных функций, таких как цепочки, агенты и инструменты. Цепочки позволяют использовать ответы из первого запроса в качестве ввода во второй запрос. Это делает работу с LLM разговорной. Агенты — это цепочки, но они могут выполнять последующие шаги автономно. Инструменты используются агентами для принятия решений о том, как задавать автономные вопросы. - Оценка модели. Производительность модели должна отслеживаться по заранее установленным измеримым результатам и метрикам, которые должны отражать ценность и преимущества для бизнеса. К общим метрикам оценки относятся перплексия (коэффициент неопределенности), которая измеряет способность модели предсказывать следующее слово в последовательности, и BLEU, которая оценивает качество сгенерированного текста по сравнению с человеческими рекомендациями. Человеческая оценка с помощью экспертов-рецензентов или краудсорсинга также важна для определения общего понимания языка и согласованности модели. Кроме того, важными этапами комплексной оценки LLM являются изучение поведения модели в ответ на различные подсказки и оценка потенциальных предубеждений.
Конфигурация данных ИИ
Когда модель ИИ уже создана, расширение понимания, охват тем и общий уровень интеллекта достигаются за счет использования данных. Модель может поставляться с общедоступными и общими данными. Они обеспечивают общие решения и результаты. Чтобы адаптировать хранилище знаний ИИ и, в свою очередь, принимать решения в соответствии с уникальными возможностями и позиционированием организации, ИИ необходимо обучить на собственных данных. Ниже приводится краткое руководство по подготовке данных для использования и обучения ИИ:
- Обеспечение бизнес-направленности и поддержки. Это не технический шаг, и он звучит как клише. Но это обязательный первый шаг. Обилие данных может быть ошеломляющим. Потребление данных ради потребления данных — это не решение. Должна быть четкая и общая возможность для использования или проблема, которую нужно решить. Отсюда следует, что необходимо сосредоточиться на том, что измерять, фиксировать и собирать, и наладить сотрудничество.
- Сбор данных. Некоторые могут воспринять это как задачу по сбору новых данных от клиентов или операций. Однако в большинстве случаев данные уже существуют в организации. Скорее всего, уже есть достаточно данных из контрактов, заказов, планов, служебных записок, продуктов, баз данных и т. д. Однако все это может быть не в одном месте. Возможно, данные придется собирать из разных отделов, разных систем или от разных партнеров. Не обязательно собирать все имеющиеся данные, для начала достаточно собрать, например, данные бухгалтерского учета.
- Предварительная обработка данных. Модели ИИ очень снисходительны к типу и формату данных. Они могут быть текстовыми или нетекстовыми, структурированными или неструктурированными. Очистка и устранение несоответствий являются частью предварительной обработки. Для контролируемого машинного обучения необходимы маркировка и кодирование. Некоторые модели поддерживают неконтролируемое обучение, которое менее требовательно к предварительной обработке данных. Наиболее важным аспектом этого шага является удаление персонально идентифицируемой информации. Данные должны быть анонимными и соответствовать политикам и протоколам конфиденциальности.
- Разработка признаков. Это включает в себя создание признаков на основе таких вещей, как демографические данные пациента, истории болезни, клинические записи, результаты лабораторных исследований и другая подходящая информация. Извлечение релевантных признаков из предварительно обработанных данных помогает улучшить прогнозирование. Эффективная разработка признаков может значительно повысить способность модели к обучению и обобщению, что приведет к улучшению прогнозов и инсайтов. Однако для достижения желаемых результатов требуются специальные знания, творческий подход и тщательное рассмотрение проблемы и набора данных.
Использование данных
Мы все собираем данные уже несколько десятилетий — наука о данных как практика выросла из необходимости извлекать инсайты из необработанных данных. Прогресс МО и ИИ придает данным новые значение, роль и полезность. Сейчас, как никогда, важно обеспечить управляемость, наблюдаемость и обнаруживаемость данных. Необходимо рассматривать данные как продукт, который нужно выращивать, лелеять и развивать. Соединение данных с правильной моделью или алгоритмом принесет организациям настоящий интеллект.