Открытые большие языковые модели (LLM) становятся все более дееспособными и представляют собой жизнеспособную альтернативу коммерческим LLM, таким как GPT-4 и Gemini. А учитывая стоимость аппаратных ускорителей ИИ, разработчики внимательно рассматривают API для применения современных языковых моделей. Джанакирам МСВ, главный аналитик компании Janakiram & Associates и адъюнкт-преподаватель Международного института информационных технологий, рассказывает на портале The New Stack о пяти платформах генеративного ИИ, поддерживающих использование открытых LLM, таких как Llama 3, Mistral и Gemma.

Хотя облачные платформы крупных провайдеров, такие как Azure OpenAI, Amazon Bedrock и Google Cloud Vertex AI, для многих являются очевидным выбором, существуют специально разработанные платформы, которые быстрее и дешевле платформ гиперскейлеров.

Ниже представлены пять платформ генеративного ИИ, позволяющих использовать открытые LLM, такие как Llama 3, Mistral и Gemma. Некоторые из них также поддерживают фундаментальные модели, нацеленные на зрение.

1. Groq

Groq — это компания, занимающаяся разработкой инфраструктуры ИИ, которая утверждает, что создает самую быструю в мире технологию получения ИИ-выводов. Их флагманский продукт — движок для обработки языковых данных (Language Processing Units, LPU) Inference Engine, аппаратно-программная платформа, цель которой — обеспечить исключительную скорость вычислений, качество и энергоэффективность ИИ-приложений. Разработчики любят Groq за скорость и производительность.

Работу сервиса GroqCloud обеспечивает масштабируемая сеть LPU, что позволяет пользователям использовать популярные LLM с открытым исходным кодом, например Llama 3 70B, на скорости, как утверждается, до 18 раз выше, чем у других провайдеров. Для работы с API можно использовать клиентский SDK Groq для Python или клиентский SDK от OpenAI. Groq легко интегрировать с LangChain и LlamaIndex для создания продвинутых LLM-приложений и чат-ботов.

Что касается цен, то Groq предлагает различные варианты. В облачном сервисе плата взимается на основе обрабатываемых токенов — от 6 до 27 центов за миллион токенов в зависимости от используемой модели. Есть бесплатный уровень — отличный способ начать работу с Groq.

2. Perplexity Labs

Perplexity быстро становится альтернативой Google и Bing. Хотя ее основной продукт — поисковая система на основе ИИ, у нее также есть механизм выводов, предлагаемый через Perplexity Labs.

В октябре 2023 г. Perplexity Labs представила pplx-api — API, разработанный для быстрого и эффективного доступа к LLM с открытым исходным кодом. В настоящее время pplx-api находится в стадии публичной бета-версии и позволяет пользователям с подпиской Perplexity Pro получить доступ к API, что дает возможность широкой базе пользователей тестировать и предоставлять отзывы, которые помогают Perplexity Labs постоянно совершенствовать инструмент.

API поддерживает популярные LLM, включая Mistral 7B, Llama 13B, Code Llama 34B и Llama 70B. Он позиционируется как экономически эффективный и для развертывания, и для вычислений, а Perplexity Labs сообщает об обеспечиваемой им значительной экономии средств. Пользователи могут легко интегрировать API в существующие приложения с помощью интерфейса, совместимого с клиентом OpenAI, что делает его удобным для разработчиков, знакомых с экосистемой OpenAI.

Платформа также включает в себя модели llama-3-sonar-small-32k-online и llama-3-sonar-large-32k-online, которые основаны на механизмах FreshLLM. Эти модели на базе Llama3 могут возвращать ссылки — функция, которая в настоящее время находится в закрытой бета-версии.

Perplexity Labs предлагает гибкую модель ценообразования для своего API. План с оплатой по факту предполагает плату в зависимости от количества обработанных токенов, что делает его доступным без предварительных обязательств. План Pro, стоимостью 20 долл. в месяц или 200 долл. в год, включает в себя ежемесячную скидку в размере 5 долл. на использование API, неограниченную загрузку файлов и специализированную поддержку. Цена варьируется от 0,2 до 1 долл. за миллион токенов в зависимости от размера модели. Помимо платы за токены, онлайн-модели взимают фиксированную плату в размере 5 долл. за тысячу запросов.

3. Fireworks AI

Fireworks AI — это платформа генеративного ИИ, которая позволяет разработчикам использовать для своих приложений современные Open Source-модели. Она предлагает широкий спектр языковых моделей, включая FireLLaVA-13B (языково-зрительная модель), FireFunction V1 (для вызова функций), Mixtral MoE 8×7B и 8×22B (модели следования инструкциям), а также Llama 3 70B.

Помимо языковых моделей, Fireworks AI поддерживает такие модели генерации изображений, как Stable Diffusion 3 и Stable Diffusion XL. Доступ к этим моделям осуществляется через бессерверный API от Fireworks AI, который, по словам компании, обеспечивает лучшую в отрасли производительность и пропускную способность.

Платформа имеет конкурентоспособную модель ценообразования. Она предлагает оплату по факту в зависимости от количества обрабатываемых токенов. Например, модель Gemma 7B стоит 20 центов за миллион токенов, а модель Mixtral 8×7B — 50 центов за миллион токенов. Fireworks AI также предлагает развертывание по требованию, где пользователи могут арендовать экземпляры GPU (A100 или H100) на почасовой основе. API совместим с OpenAI, что упрощает интеграцию с LangChain и LlamaIndex.

Различные ценовые уровни Fireworks AI ориентированы на разработчиков, бизнес и крупные предприятия. Уровень разработчика предполагает ограничение в 600 запросов/мин и до 100 развернутых моделей, в то время как уровни бизнеса и крупного предприятия предоставляют договорные ограничения скорости, функции совместной работы и специализированную поддержку.

4. Cloudflare

Cloudflare AI Workers — это платформа для ИИ-выводов, которая позволяет разработчикам запускать модели машинного обучения в глобальной сети Cloudflare с помощью всего нескольких строк кода. Она представляет собой бессерверное и масштабируемое решение для выводов ИИ с применением GPU-ускорения, позволяя разработчикам использовать предварительно обученные модели для решения различных задач, включая генерацию текста, распознавание изображений и речи, без необходимости управлять инфраструктурой или GPU.

Платформа предлагает набор популярных Open Source-моделей, которые охватывают широкий спектр ИИ-задач. Среди поддерживаемых моделей — llama-3-8b-instruct, mistral-8×7b-32k-instruct, gemma-7b-instruct и даже модели зрения, такие как vit-base-patch16-224 и segformer-b5-finetuned-ade-512-pt.

Cloudflare AI Workers предлагает универсальные точки интеграции для внедрения ИИ-возможностей в существующие приложения или для создания новых. Разработчики могут использовать бессерверную среду выполнения Workers и Pages Functions для запуска моделей ИИ в своих приложениях. Для тех, кто предпочитает интегрироваться со своим текущим стеком, доступен REST API, позволяющий выполнять запросы на выводы из любого языка программирования или фреймворка. API поддерживает такие задачи, как генерация текста, классификация изображений и распознавание речи, а разработчики могут усовершенствовать свои ИИ-приложения с помощью Cloudflare Vectorize (векторная база данных) и AI Gateway (плоскость управления для управления ИИ-моделями и сервисами).

Поскольку Cloudflare AI Workers предоставляет разнообразный набор моделей, выходящих за рамки LLM, в качестве единицы, аналогичной токену, выступают нейроны. Платформа использует модель ценообразования с оплатой по факту в зависимости от количества обрабатываемых нейронов, предлагая доступное решение для ИИ-выводов. Все аккаунты имеют бесплатный уровень, позволяющий использовать 10 000 нейронов в день, где нейрон агрегирует применение различных моделей. При превышении этого уровня Cloudflare взимает плату в размере 1,1 цента за 1000 дополнительных нейронов. Стоимость зависит от размера модели; например, Llama 3 70B стоит 59 центов за миллион входных токенов и 79 центов за миллион выходных токенов, а Gemma 7B — 7 центов за миллион токенов как на входе, так и на выходе.

5. Nvidia NIM

API Nvidia NIM предоставляет доступ к широкому спектру предварительно обученных LLM и других моделей ИИ, которые оптимизированы и ускорены программным стеком Nvidia. Через каталог API Nvidia разработчики могут изучить и опробовать более 40 различных моделей от Nvidia, Microsoft, Hugging Face и других поставщиков. Среди них такие мощные модели генерации текста, как Llama 3 70B, Mixtral 8×22B и Nemotron 3 8B, а также модели зрения, такие как Stable Diffusion и Kosmos 2.

API NIM позволяет разработчикам легко интегрировать эти современные модели ИИ в свои приложения, используя всего несколько строк кода. Модели размещаются на инфраструктуре Nvidia и предоставляются через стандартизированный API, совместимый с OpenAI, что обеспечивает беспрепятственную интеграцию. Разработчики могут бесплатно создавать прототипы и тестировать свои приложения с помощью хостируемого API, а в случае готовности к производству — развернуть модели онпремис или в облаке с помощью недавно запущенных контейнеров Nvidia NIM.

Nvidia предоставляет как бесплатные, так и платные уровни для NIM API. Бесплатный уровень включает 1000 кредитов для начала работы, в то время как тарифы зависят от количества обрабатываемых токенов и размера модели: от 7 центов за миллион токенов для небольших моделей, таких как Gemma 7B, до 79 центов за миллион токенов для больших моделей, таких как Llama 3 70B.

Приведенный выше список — это подмножество платформ для ИИ-выводов, предлагающих языковые модели в качестве сервиса.