Революция больших языковых моделей (LLM) превратила векторные базы данных (VDB) из малоизвестной поисковой технологии в обязательный продукт для успешной работы генеративного искусственного интеллекта (GenAI). Аналитики Forrester недавно изучили эту область, чтобы рассказать в новом отчете о том, на какие функции VDB следует обратить внимание и какие поставщики внедряют инновации, сообщает портал Datanami.
VDB предназначены для управления и обработки одного конкретного типа данных, называемого векторным вложением, которое представляет собой числовое представление слов, документов, изображений или даже звука. VDB индексирует и хранит векторные вложения в многомерном пространстве, что позволяет пользователям или приложениям извлекать эти вложения и другие, похожие на них. Именно эта функция поиска по сходству позволяет получать гораздо лучшие результаты поиска, чем простое сопоставление ключевых слов, что привело к созданию так называемых «поисковых систем с ИИ».
Когда в конце 2022 г. ChatGPT сбросила на мир бомбу LLM, было быстро найдено новое применение VDB. Храня набор исходных документов в VDB в виде вложений и затем обращаясь к базе данных для предоставления информации из этих документов через поиск по сходству, выполняемый во время исполнения в рамках инженерии подсказок или генерации с расширенным поиском (RAG), пользователи GenAI обнаружили, что могут значительно улучшить качество ответов, генерируемых чат-ботами, «вторыми пилотами» и другими формами ИИ-взаимодействия, которые допускают LLM, такие как ChatGPT.
До появления ChatGPT существовало всего несколько нативных VDB, таких как Pinecone, Milvus и Zilliz. Но практически в одночасье многие существующие поставщики баз данных, включая Elastic, DataStax, Couchbase, MongoDB и даже Teradata, адаптировали свои продукты для хранения, индексирования и обработки векторных данных. Для NoSQL- и реляционных баз данных, которые уже были мультимодальными по своей природе, добавление векторного типа данных не представляло собой ничего сложного.
Однако с ростом рынка VDB среди пользователей возникла путаница в вопросе о том, как лучше всего их использовать. «Достаточно ли плагина pgvector для Postgres для моих GenAI-нужд? Какие преимущества дает собственная векторная база данных по сравнению с мультимодальной базой? Работают ли эти VDB только в облаке или их можно использовать и локально?»
Помощь аналитиков не заставила себя ждать. В дело вступила компания Forrester, известная группа ИТ-аналитиков, базирующаяся в Кембридже (шт. Массачусетс). В отчете «Vector Databases Landscape, Q2 2024» аналитик Forrester Ноэль Юханна и несколько его коллег изучили растущий рынок VDB, разложив по полочкам возможности продуктов 24 поставщиков.
Forrester начала с терминологии. «Система управления базами данных, которая обеспечивает хранение, индексацию, обработку и доступ к данным, представленным в виде векторов, для поддержки поиска по сходству, приложений RAG, современных приложений GenAI/LLM и векторной аналитики», — так компания определяет VDB.
Как пишут аналитики, организации используют VDB для поддержки клиентского опыта, приложений RAG, поиска по сходству изображений, обнаружения аномальных данных в реальном времени, оптимизации рекомендательных систем и выявления мошенничества. «Несмотря на то, что этот рынок находится на начальной стадии развития, мы ожидаем, что в ближайшем будущем появится большое количество разнообразных сценариев использования VDB», — утверждают они.
По мнению Forrester, рынок векторных баз данных делится на два основных сегмента: нативные VDB и мультимодальные VDB. Ключевое различие между ними заключается в большей масштабируемости нативных VDB, особенно при работе с большими объемами векторов. Основное преимущество мультимодальных VDB заключается в том, что они могут хранить другие типы данных, что потенциально устраняет необходимость в двух или более отдельных базах данных.
Проблемы масштабирования в векторных базах данных не решены полностью, и, согласно Forrester, высококлассные VDB «все еще находятся в процессе разработки. Достижение высокого уровня масштабируемости и производительности все еще требуют значительных усилий, особенно при поддержке десятков миллиардов точек данных (векторов)».
Forrester не стала ранжировать исследуемые продукты по их возможностям для выполнения стандартных задач VDB (возможно, это станет темой предстоящей Forrester Wave). Зато проанализировала, какие базы данных позиционируются для некоторых из новых сценариев использования, что очень полезно знать.
По данным Forrester, за последние 12 месяцев на рынке VDB появилось большое количество участников, что создает интересную динамику, за которой следует внимательно следить наблюдателям и заказчикам.
Например, меняются возможности, ожидаемые от VDB. К основным функциям, таким как хранение, индексирование и обработка векторов, добавляются более продвинутые возможности, «включая усиленные меры безопасности, оптимизированные возможности обработки и бесшовную интеграцию с различными трансформерами для векторных вложений и механизмами потоковой передачи данных», — говорится в отчете.
Еще один момент, на который следует обратить внимание, — это перетекание рынка. Как утверждает Forrester, облачные платформы данных, включая ткани данных и озера-хранилища данных, также используют векторные возможности, что может еще больше изменить рынок VDB.
«Эта тенденция подчеркивает переход к комплексным решениям для управления данными, которые легко интегрируют векторную функциональность, потенциально меняя ландшафт рынка специализированных VDB», — пишут авторы отчета.