Малые языковые модели (SLM) предлагают отличный баланс эффективности, конфиденциальности и адаптивности, что делает их идеальными для различных периферийных приложений, пишет на портале The New Stack Панкадж Мендки, руководитель отдела новых технологий компании Talentica Software.

Давайте представим себе такой сценарий: есть больница, где у пациентов есть свои медицинские карты. Больница хочет установить на их персональные устройства мониторинга медицинские ассистенты с поддержкой искусственного интеллекта, чтобы медицинские работники могли отслеживать и анализировать данные и предоставлять обратную связь в режиме реального времени для обеспечения планового и экстренного приема лекарств, но при этом система должна соответствовать региональным медицинским нормам. В таких случаях подходы, основанные на периферийных вычислениях, обеспечивают точность и безопасность данных, а также работают локально; облако не требуется.

А теперь представьте, какие возможности открываются при использовании периферийных вычислений совместно с генеративным ИИ (GenAI). Такое слияние не просто делает решение «умнее» — оно делает его автономным и открывает новые возможности для развития персонализированного, интеллектуального здравоохранения. Но влияние периферийных вычислений не ограничивается только здравоохранением. Они также могут изменить такие отрасли, как инвестиционный сектор, где обработка данных в реальном времени имеет решающее значение для принятия торговых решений, и повысить уровень кибербезопасности, чтобы предотвратить попадание данных в чужие руки.

Сегодня разработчики чаще всего используют для создания приложений GenAI большие языковые модели (LLM), поскольку их преимущества очевидны. Однако размер и сложность LLM делают их сложными для использования на устройствах с ограниченными ресурсами. SLM обучаются на информации по конкретной области, и они могут принимать решения в реальном времени быстрее и эффективнее, чем LLM.

В этой статье рассматриваются некоторые проблемы и потенциальные стратегии использования SLM в периферийных вычислительных системах, определенные на основе нашего собственного опыта.

Замена LLM на SLM для периферийных приложений

Переход на SLM дает значительные преимущества в сфере здравоохранения, где широко распространено использование персональных устройств. Из-за ограничений производительности такие устройства часто не обладают ресурсами, необходимыми для эффективной работы LLM. Поскольку SLM привязаны к конкретным областям, они представляют собой идеальное решение для устранения этих ограничений.

Преобразовать LLM в SLM легко с помощью таких методов, как дистилляция модели, обрезка параметров и квантование. Дистилляция модели предполагает обучение небольшой модели для эмуляции большой модели, сохраняя при этом большую часть производительности последней. Обрезка параметров устраняет ненужные веса и связи в модели, чтобы упростить ее архитектуру без ущерба для точности. Квантование сжимает модель, снижая точность числового представления весов, что приводит к уменьшению ее размера и ускорению вычислений.

Теперь давайте еще раз рассмотрим пример с больницей. Различные группы пациентов могут требовать постоянного наблюдения и немедленных действий при заболеваниях и расстройствах, связанных с неврологией, нефрологией, сердечно-сосудистыми, аутоиммунными, инфекционными заболеваниями или даже несчастными случаями. SLM могут быть обучены отдельно для этих медицинских состояний. Они могут анализировать данные пациентов в режиме реального времени и либо начинать необходимое лечение, либо вовремя предупреждать медицинских работников о необходимости принятия мер.

В зависимости от своих потребностей разработчики могут создавать SLM как с нуля, так и использовать предварительно обученные модели в качестве фундаментальных инструментов для своих проектов и ускорения процесса разработки. Предварительно обученные SLM доступны на открытых маркетплейсах, таких как GitHub Models и Hugging Face. Эти инструменты также способствуют более широкому внедрению GenAI на периферии.

Контекстные возможности SLM могут изменить ряд отраслей. В «умных» городах SLM могут помочь создавать более совершенные периферийные IoT-устройства, чтобы, например, предоставлять контекстно-зависимые машруты движения с учетом таких условий, как заторы или закрытие дорог. Такая комбинация может повысить эффективность, минимизировать задержки и улучшить общее впечатление от городской мобильности.

Учет разнообразия платформ и требований к ресурсам

Неоднородность платформ периферийных устройств может сделать развертывание SLM сложным. Персональные устройства мониторинга могут работать на нескольких платформах, таких как iOS и Android. В то же время такие стеки и фреймворки, как Open Neural Network Exchange (ONNX), MediaPipe, WASI-NN, Rust и WebAssembly, могут помочь создать экосистему для периферийных приложений, использующих SLM. Они поддерживают различные аппаратные средства и операционные системы, обеспечивают кроссплатформенную поддержку и оптимизацию приложений по ресурсам.

Такие фреймворки, как среда выполнения ONNX, предоставляют уровень абстракции, который упрощает поддержку SLM на различных платформах, чтобы облегчить эту задачу. Разработчики могут оптимизировать модели для конкретных аппаратных целей с помощью наборов инструментов ONNX, чтобы обеспечить эффективную работу независимо от базовой архитектуры устройств. Фреймворк MediaPipe упрощает перенос SLM на легкие периферийные устройства, включая мобильные платформы. Модульная структура и эффективные аппаратные ускорители позволяют создавать заранее оптимизированные кроссплатформенные решения и упрощают развертывание сложных моделей ИИ в условиях ограниченных ресурсов.

Кроме того, WebAssembly может использовать возможности базового оборудования, включая графические процессоры, для оптимизации производительности и ускорения задач получения ИИ-выводов. Он идеально подходит для SLM-приложений, поскольку сочетает в себе легкое исполнение и мощные вычислительные ресурсы. Он также способствует реализации инициатив по экологической безопасности, поддерживая разработку надежных ИИ-решений для периферийных устройств с меньшим энергопотреблением и тепловыделением. WASI-NN предоставляет для WebAssembly интерфейсы API машинного обучения. Это позволяет разрабатывать на WebAssembly мультиязычные приложения, использующие возможности SLM.

Стек языков программирования Rust еще больше расширяет эту экосистему. В отличие от стека Python, используемого в средах MО, Rust позволяет выполнять приложения размером всего 30 Мб, что обеспечивает легкие и высокопроизводительные приложения, подходящие для периферийных сред с ограниченными ресурсами.

Совместное обучение на периферии с повышенной безопасностью

Здравоохранение и многие другие области работают в условиях строгих требований к конфиденциальности. Однако контролируемый обмен данными с периферийными приложениями может помочь создать базу знаний для улучшения с помощью SLM процедур лечения и предоставления других медицинских услуг. А такие методы, как федеративное обучение, могут обеспечить обучение и тонкую настройку SLM на нескольких устройствах. Обеспечение конфиденциальности и безопасности данных при использовании федеративного обучения становится более простым. Этот подход помогает обучать модели на локализованных данных без разглашения конфиденциальной информации.

Давайте вернемся к примеру с больницей. Наша больница решила присоединиться к программе сотрудничества с другими больницами, чтобы построить более сложную модель для улучшения прогнозов и результатов лечения на основе данных из различных медицинских карт. Но есть одна загвоздка: больницы не могут выкладывать документы в открытый доступ, поскольку по правилам владельцами своих данных являются пациенты.

Именно здесь федеративное обучение в сочетании с SLM может стать ключевым фактором. Каждая больница может обучить свою собственную SLM, используя истории болезни своих пациентов. Затем она может загрузить в общую базу данных только обобщенные параметры, что принесет пользу всем участникам при сохранении конфиденциальности. Затем сервер строит глобальную модель на основе полученных обновлений, не обращаясь к отдельным файлам.

Тот же принцип применим ко всем сценариям, связанным с конфиденциальными данными. Например, в инвестиционном секторе, где данные клиентов требуют строгой защиты, информация об общих параметрах инвестиционных моделей может помочь банковскому сектору разрабатывать более эффективные планы. Федеративное обучение облегчает сотрудничество между участниками, будь то отдельные люди, устройства или организации. Оно улучшает модели, предоставляя данные без ущерба для их конфиденциальности.

Разработчики могут использовать для федеративного обучения Open Source-проекты, например Flower, Substra, NVFlare и др. Эти фреймворки обеспечивают безопасность данных и конфиденциальность с помощью таких методов, как дифференциальная конфиденциальность, гомоморфное шифрование и конфиденциальные вычисления.

Заключение

SLM предлагают отличный баланс эффективности, конфиденциальности и адаптивности, что делает их идеальными для различных приложений. В сфере здравоохранения быстрая диагностика симптомов на устройстве может также стать дифференцирующим фактором для телемедицины — развивающейся области здравоохранения.

Такие отрасли, как промышленный IoT, оборона и финтех, могут использовать SLM для аналитики реального времени, повышения безопасности и создания индивидуальных решений. Эти отрасли могут получить дополнительные преимущества благодаря адаптации к мультиязычным и мультимодальным данным. Например, финтех-индустрия может использовать SLM для мультиязычной поддержки клиентов и локализации моделей для различных наборов данных. Поскольку SLM развертываются локально, они более безопасны и объяснимы, что обеспечивает прозрачность в областях, где соблюдение нормативных требований является приоритетом.