Малые языковые модели (SLM) не требуют огромного количества дорогостоящих вычислительных ресурсов и могут быть обучены на бизнес-данных, отмечают опрошенные порталом ComputerWeekly эксперты.
Согласно Gartner, SLM представляют собой потенциально экономически эффективную альтернативу для разработки и внедрения генеративного искусственного интеллекта (GenAI), поскольку их легче настраивать, эффективнее обслуживать и проще контролировать.
В своем отчете «Explore small language models for specific AI scenarios», опубликованном в августе 2024 г., Gartner исследует, как менялись и эволюционировали определения «малая» и «большая» в языковых моделях ИИ.
Аналитическая компания отмечает, что, по некоторым оценкам, модели GPT-4 (март 2023 г.), Gemini 1.5 (февраль 2024 г.), Llama 3.1 405B (июль 2024 г.) и Claude 3 Opus (март 2024 г.) имеют от полутриллиона до двух триллионов параметров. На противоположном конце спектра такие модели, как Mistral 7B (сентябрь 2023 г.), Phi-3-mini 3.8B и Phi-3-small 7B (апрель 2024 г.), Llama 3.1 8B (июль 2024 г.) и Gemma 2 9B (июнь 2024 года), которые,по оценкам, имеют 10 млрд. параметров или меньше.
В качестве примера вычислительных ресурсов, используемых малой языковой моделью по сравнению с большой (LLM), Gartner сообщает, что для Llama 3 8B (8 млрд. параметров) требуется 27,8 Гб памяти графического процессора (GPU), в то время как для Llama 3 70B (70 млрд. параметров) — 160 Гб.
Чем больше памяти GPU требуется, тем выше стоимость. Например, при нынешних ценах на GPU сервер, способный работать с полной моделью DeepSeek-R1 с 670 млрд. параметров в памяти, будет стоить более 100 тыс. долл.
Дистилляция знаний
Тот факт, что LLM в несколько раз превосходят SLM — по количеству параметров, используемых в процессе обучения для построения модели данных, которую они используют для выводов ИИ, — подразумевает, что SLM обучаются только на подмножестве данных. Это означает, что в их знаниях могут быть пробелы, а значит, иногда они не смогут дать оптимальный ответ на конкретный запрос.
Джаррод Водри, главный специалист по данным Domino Data Lab, поставщика корпоративной платформы ИИ, отмечает, что SLM могут извлечь выгоду из своего рода получения знаний от LLM. Эта техника, известная как «дистилляция знаний», позволяет эффективно передавать знания от LLM к SLM.
«Такая передача знаний представляет собой один из наиболее многообещающих подходов к демократизации передовых языковых возможностей без вычислительной нагрузки, связанной с многими миллиардами параметров модели, — говорит он. — Дистиллированные SLM улучшают качество ответов и аргументацию, используя при этом лишь малую часть вычислений LLM».
По словам Водри, для дистилляции знаний от LLM к SLM нужны два ключевых компонента: предварительно обученная LLM, которая служит «учителем», и меньшая архитектура, которая станет SLM-«учеником». Меньшая архитектура обычно инициализируется либо случайным образом, либо с помощью базового предварительного обучения.
Процесс дистилляции знаний
Как объясняет Водри, процесс дистилляции может быть реализован различными методами с использованием как структурированных данных (например, маркированных наборов данных с четкими категориями), так и неструктурированных данных (например, текстовых корпусов, разговоров или кода):
- Дистилляция на основе ответов обучает SLM соответствовать распределению вероятностей на выходе LLM на большом корпусе, фокусируясь на конечных результатах.
- Дистилляция на основе характеристик выходит за рамки простого копирования ответов — она помогает малой модели-«ученику» узнать, как мыслит большая модель-«учитель», имитируя ее процесс рассуждения на разных этапах.
- Многоступенчатая дистилляция представляет собой последовательный подход, при котором знания передаются через промежуточные модели уменьшающегося размера. Это похоже на систему репетиторства, когда выпускник колледжа сначала обучает способного старшеклассника, который затем упрощает и передает эти знания младшему ученику.
Дополнение SLM
Ни LLM, ни SLM сами по себе не могут обеспечить все, что нужно организации. Корпоративные пользователи, как правило, хотят объединить данные, хранящиеся в их корпоративных ИТ-системах, с моделью ИИ.
По мнению Доминика Томичевича, генерального директора поставщика графовых баз данных Memgraph, в основе всех споров о моделях лежит контекст. «Для очень общих задач домашнего уровня LLM работает отлично, но когда вам нужен действительно полезный ИИ на основе языка, вы должны использовать SLM», — говорит он.
Например, то, как компания смешивает краски, строит сети Интернета вещей (IoT) или планирует доставку, уникально. «ИИ не нужно помнить, кто выиграл чемпионат мира по футболу в 1930 г., — добавляет он. — Он должен помочь вам оптимизировать решение конкретной задачи в вашей корпоративной сфере».
Как отмечает Томичевич, SLM можно обучить распознавать запросы о заказах в системе электронной коммерции, и в рамках цепочки поставок она получить глубокие знания в этой конкретной области, что позволит ей гораздо лучше отвечать на соответствующие вопросы. Еще одно преимущество заключается в том, что для средних и небольших предприятий обучить SLM обойдется значительно дешевле — с учетом стоимости GPU и электроэнергии — чем обучить LLM.
Однако, по словам Томичевича, внесение данных о цепочке поставок в сфокусированную SLM технически является сложной задачей. «Пока не получит развитие базовая архитектура, которую совместно используют LLM и SLM, — трансформер, — обновление языковой модели будет затруднено, — говорит он. — Эти модели предпочитают обучаться одним большим пакетом, поглощая все данные сразу, а затем рассуждать только в рамках того, что, как им кажется, они знают».
Это означает, что обновление или поддержание SLM в актуальном состоянии, независимо от того, насколько хорошо она ориентирована на использование в бизнесе, остается сложной задачей. «В контекстное окно требуется подавать актуальную информацию», — добавляет Томичевич.
По его мнению, здесь в дело вступает дополнительный элемент: организации неоднократно убеждались, что граф знаний — это лучшая модель данных, которая может работать вместе с SLM, обученными на предметной области, выступая в роли постоянного наставника и интерпретатора.
Технология генерации на расширенной выборке (RAG) на основе графов позволяет объединить структурированные и неструктурированные данные. По словам Томичевича, это дает системам ИИ возможность извлекать наиболее значимые инсайты с меньшими затратами и более высокой точностью. «Кроме того, это повышает эффективность рассуждений за счет динамического получения данных из актуальной базы данных, исключает статическое хранение и обеспечивает постоянное получение ответов, основанных на самой свежей информации», — говорит он.
По словам Криса Мала, генерального директора компании Pryon, поставщика платформы для управления корпоративными знаниями, эффективность использования ресурсов SLM позволяет им работать на стандартном оборудовании, направляя специализированный интеллект именно туда, где он необходим. «Это меняет подход организаций к развертыванию ИИ, позволяя внедрять мощные возможности в среды, которые раньше считались непрактичными для передовых вычислений, и обеспечивать демократичный доступ, преодолевая географические и инфраструктурные барьеры», — говорит он.
По словам Мала, RAG обеспечивает конвейер, который проникает сквозь шум и предоставляет точный, релевантный контекст для SLM.
Уменьшение количества ошибок и галлюцинаций
Несмотря на то, что LLM считаются невероятно мощными, они страдают от ошибок, известных как галлюцинации, когда они фактически выдумывают вещи.
Рами Луисто, ведущий специалист по науке о данных в области ИИ в здравоохранении компании Digital Workforce, поставщика решений для автоматизации бизнеса и технологий, говорит, что SLM характеризуются более высокой степенью прозрачности их внутренней работы и результатов. «Когда объяснимость и доверие имеют решающее значение, провести аудит SLM может быть гораздо проще, чем попытаться выяснить причины поведения LLM», — говорит он.
Хотя вокруг темы агентного ИИ в отрасли много шумихи, основным препятствием для использования агентов ИИ для автоматизации сложных рабочих процессов является то, что такие системы подвержены ошибкам, что приводит к автоматическому принятию неверных решений. Со временем эта неточность уменьшится, но пока мало свидетельств того, что корпоративные приложения разрабатываются с учетом потенциальных ошибок, вносимых системами агентного ИИ.
По словам Анушри Верма, директора-аналитика Gartner, в настоящее время происходит сдвиг в сторону языковых моделей, специфичных для конкретной области, и более легких моделей, которые можно тонко настраивать. Со временем, вероятно, эти небольшие модели ИИ будут работать как эксперты, дополняя более общие системы агентного ИИ, что может способствовать повышению точности.
Это, скорее, похоже на то, как человек, не являющийся специалистом в определенной области, просит совета у эксперта. Такая аналогия немного напоминает спасательный круг «звонок другу» в телевизионном игровом шоу «Кто хочет стать миллионером?».
Генеральный директор DeepMind Демис Хассабис представляет себе мир, в котором множество агентов ИИ координируют действия для достижения цели. Таким образом, хотя SLM может получить знания от LLM путем дистилляции знаний, она, благодаря таким методам, как RAG, и его способности оптимизироваться для конкретной области, может в конечном итоге быть призвана в качестве эксперта, чтобы помочь более общей LLM ответить на вопрос, относящийся к конкретной области.