Извлечение ценных инсайтов из неструктурированного текста — важнейшая задача в финансовой отрасли. Однако эта задача часто выходит за рамки простого извлечения данных и требует расширенных возможностей рассуждений, пишет на портале Datanami Ваге Андонян, основатель, технический директор и директор по продуктам компании Cognaize.
Ярким примером является определение даты погашения в кредитных соглашениях, что обычно предполагает расшифровку сложной директивы типа «Дата погашения приходится на последний рабочий день, предшествующий третьей годовщине даты вступления в силу». Такой уровень сложности рассуждений создает проблемы для больших языковых моделей (LLM). Для точной интерпретации и применения заданных инструкций требуется подключение внешних знаний, например календарей праздников. Интеграция графов знаний — перспективное решение, обладающее рядом ключевых преимуществ.
Появление трансформеров произвело революцию в векторизации текста, обеспечив беспрецедентную точность. Эти вложения содержат глубокие семантические значения, что превосходит предыдущие методологии, и именно поэтому LLM так убедительно справляются с генерацией текста.
LLM также демонстрируют способность к рассуждениям, хотя и с ограничениями: глубина их рассуждений быстро уменьшается. Однако интеграция графов знаний с этими векторными вложениями может значительно расширить возможности рассуждений. Эта синергия позволяет использовать семантическое богатство, присущее вложениям, и поднимает возможности рассуждений на беспрецедентную высоту, знаменуя собой значительный прогресс в искусственном интеллекте.
В финансовом секторе LLM преимущественно используются с применением метода Retrieval Augmented Generation (RAG, генерация с учетом дополнительно найденной релевантной информации), который позволяет внедрять в LLM новые знания, полученные после обучения. Этот процесс включает в себя кодирование текстовых данных, их индексацию для эффективного поиска, кодирование запроса и использование аналогичных алгоритмов для получения релевантных фрагментов. Эти найденные фрагменты затем используются для ответа на запрос, служа основой для LLM, генерирующей ответ. Такой подход значительно расширяет базу знаний LLM, делая ее бесценной для финансового анализа и принятия решений.
Несмотря на то, что технология RAG представляет собой значительное достижение, у нее есть и недостатки.
Критическим недостатком является возможная неспособность векторов фрагментов полностью понять семантический смысл запросов, что приводит к упущению жизненно важного контекста. Это происходит потому, что вложения могут не улавливать определенные инференционные связи, необходимые для понимания всего объема запроса.
Более того, объединение сложных фрагментов в единый вектор может привести к потере нюансов, затушевывая ключевые детали, распределенные по предложениям.
Кроме того, процесс сопоставления рассматривает каждый фрагмент отдельно, не имея механизма совместного анализа, который мог бы связать разрозненные факты. Его отсутствие препятствует способности модели агрегировать информацию из нескольких источников, что часто необходимо для создания полных и точных ответов, требующих синтеза информации из различных контекстов.
Усилия по совершенствованию системы RAG многочисленны: от оптимизации размеров блоков до использования родительских средств извлечения блоков, встраивания гипотетических вопросов и переписывания запросов. Хотя эти стратегии позволяют добиться улучшений, они не приводят к революционным изменениям результатов. Альтернативный подход — обойтись без RAG, расширив контекстное окно, как это было в случае с Google Gemini, когда он достиг уровня в миллион токенов. Однако это создает новые проблемы, включая неравномерное внимание к расширенному контексту и значительное, часто тысячекратное, увеличение затрат.
Встраивание графов знаний в плотные векторы становится наиболее перспективным решением. Хотя вложения эффективно сжимают текст разной длины в векторы фиксированной размерности, позволяя идентифицировать семантически схожие фразы, они иногда не могут различить критические нюансы. Например, «наличные и средства в банках» и «денежные средства и их эквиваленты» дают почти одинаковые векторы, что говорит о сходстве, но не учитывает существенных различий. В последнем случае речь идет о процентных активах, таких как «ценные бумаги, обеспеченные активами» или «фонды денежного рынка», в то время как «средства в банках» относятся к беспроцентным депозитам.
Графы знаний также отражают сложные взаимосвязи понятий. Это способствует более глубокому пониманию контекста, подчеркивая дополнительные отличительные характеристики через связи между понятиями. Например, график знаний US GAAP четко определяет совокупность «денежных средств и их эквивалентов», «процентных депозитов в банках» и «средств в банках» как «денежные средства и их эквиваленты».
Благодаря интеграции этих подробных контекстных подсказок и взаимосвязей графы знаний значительно расширяют возможности рассуждений LLM. Они позволяют проводить более точные многоходовые рассуждения в рамках одного графа и облегчают совместные рассуждения в рамках нескольких графов.
Более того, этот подход предлагает уровень объяснимости, который решает еще одну важную проблему LLM. Прозрачность того, как делаются выводы с помощью видимых логических связей в графах знаний, обеспечивает столь необходимый уровень интерпретируемости, делая процесс рассуждений не только более сложным, но и доступным и обоснованным.
Объединение графов знаний и вложений предвещает трансформационную эру ИИ, преодолевающую ограничения отдельных подходов для достижения человекоподобного лингвистического интеллекта.
Графы знаний привносят ранее полученную от человека символическую логику и сложные взаимосвязи, повышая мастерство нейронных сетей в распознавании образов, что в итоге приведет к созданию превосходного гибридного интеллекта.
Гибридный интеллект прокладывает путь к ИИ, который не только красноречиво излагает свои мысли, но и глубоко их понимает, позволяя создавать продвинутые разговорные агенты, проницательные рекомендательные системы и прозорливые поисковые системы.
Несмотря на трудности, связанные с построением графов знаний и управлением шумом, интеграция символьных и нейронных методик открывает будущее объяснимого, сложного языкового ИИ, обещающего беспрецедентные возможности.