Мультимодальный искусственный интеллект на базе генеративного ИИ (GenAI) может стать глазами, ушами и мозгом предприятия. Он кардинально изменит бизнес и ИТ, отмечают опрошенные порталом .
Ни одна технология в истории так быстро не достигала такого уровня распространения, как GenAI. Уже сейчас организации используют его для всего: от чат-ботов и создания контента до проектирования продуктов и разработки ПО. Технология повышает эффективность, сокращает расходы и открывает возможности для инноваций.
Однако, несмотря на все успехи, есть еще немало проблем. Слишком часто системы GenAI не распознают основные факты и информацию, которые люди считают само собой разумеющимися. Например, они могут неверно интерпретировать или неправильно классифицировать события и выдавать некачественный результат, с трудом генерировать нужный контент или не справляться с более сложными задачами, требующими сочетания текста, аудио и видео.
Именно здесь на помощь приходит мультимодальный ИИ. «Мультимодальные модели ИИ обучаются одновременно на нескольких типах данных, таких как изображения, видео, аудио и текст. Это позволяет им создавать общее представление данных, что повышает производительность при выполнении различных задач», — объясняет Арун Чандрасекаран, вице-президент и аналитик Gartner по ИИ.
Скотт Лайкенс, директор по PwC ИИ-инженерии, добавляет: «Мультимодальный ИИ может решать более сложные задачи, создавать более персонализированный опыт и помогать компаниям адаптироваться более эффективно. Речь идет о многогранности и более глубоком понимании, что крайне важно для того, чтобы оставаться впереди».
Мультимодальный ИИ потенциально затрагивает чат-боты, аналитику данных, робототехнику и многие другие области. Согласно исследованию Gartner, в 2023 г. эту технологию использовали лишь около 1% компаний, но по прогнозам к 2027 г. этот показатель вырастет до 40%. Технология окажет «трансформирующее» влияние на мир бизнеса, считают в Gartner. «Она позволяет реализовать такие сценарии использования, которые раньше были невозможны», — говорит Чандрасекаран.
ИИ обретает себя
Что делает мультимодальный ИИ таким привлекательным — и мощным, — так это его способность вести себя более похоже на человека, поскольку он лучше понимает мир. «Традиционное машинное обучение использует определенный обучающий набор для прогнозирования результатов, — отмечает Мэтью Кропп, партнер и управляющий директор Boston Consulting Group. — В дальнейшем вы ищете способы корректировки весов в модели. Мультимодальный ИИ расширяет обучающие данные в стремлении получить более реалистичные результаты».
Лайкенс сравнивает мультимодальный ИИ с человеческой способностью к многозадачности. «Вы можете задать вопрос в аудиоформате и получить письменный ответ или отправить изображение, а затем задать по нему вопросы. Взаимодействие между форматами не вызывает затруднений. Для руководителей компаний это означает более быстрое принятие обоснованных решений. Вы не просто смотрите на текст или изображение, вы видите всю картину целиком», — говорит он.
В результате системы гораздо лучше приспособлены к решению задач реального мира, а инструменты создают более персонализированный опыт и более глубокие знания. Например, если чат-бот может работать как с текстом, так и с изображениями, то это позволяет пользователю описать проблему словами, но при этом загрузить фотографию сломанного продукта. Мультимодальная система ИИ может также понимать видеоконтент и легко извлекать подсказки, обеспечивающие контекст — и давать ответы.
Результаты могут быть впечатляющими. По словам Чандрасекарана, мультимодальные системы могут выдавать визуальные ответы на вопросы и даже создавать сложные аудио- и видеоматериалы. Это включает в себя создание с использованием ИИ подкастов и обучающих материалов. Кроме того, организации могут лучше ориентироваться в настроениях рынка и потребителей, используя различные типы данных.
По словам Чандрасекарана, в ближайшие несколько лет спектр мультимодальных входных данных выйдет за рамки текста, изображений и видео. Системы, скорее всего, будут использовать более широкий спектр аудиоданных, данные датчиков и IoT, файлы журналов, фрагменты кода и многое другое. Это повысит точность, контекстную осведомленность и общую полезность чат-ботов, роботов, систем диагностики и инструментов предиктивного обслуживания.
Эволюция за пределы бота
Мультимодальные модели имеют существенную оговорку: собрать воедино меланж унимодальных моделей данных — это не то же самое, что создать специально разработанный мультимодальный фреймворк. «Мультимодальные данные должны быть согласованы и интегрированы. Это сложнее, поскольку они имеют разную степень качества и поступают в разных форматах, в отличие от унимодальных», — объясняет Чандрасекаран.
Конкретные инструменты, помогающие создавать мультимодальные системы, быстро развиваются. Облачные платформы AWS, Google и Azure включили мультимодальные функции в свои наборы инструментов. Появились предварительно обученные модели, такие как CLIP (Contrastive Language-Image Pretraining) и BERT (Bidirectional Encoder Representations from Transformers) от OpenAI. А мультимодальные библиотеки и инструменты, такие как MMDet (Multimodal Detection) и Hugging Face Transformers, объединяют различные наборы данных.
CIO и ИТ-команды должны применять практический подход к мультимодальному ИИ. Эффективная система должна соответствовать конкретным данным и целям организации, а данные должны быть чистыми и четко маркированными. Также необходимо учитывать бизнес-риски, включая предвзятость данных, проблемы конфиденциальности, стандарты справедливости, авторские права и общую точность данных. Это требует соответствующих методов обучения и оценки, таких как перекрестная валидация и метрики точности.
«Поскольку мультимодальный ИИ использует различные исходные данные — текст, изображения, аудио и видео, — поддержание постоянного уровня качества данных является ключевым фактором, — отмечает Лайкенс. — Не менее важны вопросы конфиденциальности, поскольку мультимодальные данные могут непреднамеренно раскрывать закономерности». Также очень важно держать людей в курсе событий. «Инвестиции в ответственный ИИ с самого начала помогают компаниям управлять рисками, укреплять доверие и опережать государственные нормы», — утверждает он.
На данный момент, по словам Кроппа, организации могут извлечь пользу, изучив приложения, инструменты и партнеров. Это включает в себя модели и инструменты с открытым исходным кодом, которые помогают снизить входной барьер и уменьшить риски, связанные с крупными ИТ-обязательствами. «Важно подобрать модель и поставщика в соответствии с желаемым сценарием использования. Различные комбинации приводят к различным и потенциально лучшим результатам», — отмечает он.
Чандрасекаран считает, что также могут быть необходимы структурные изменения. «Обучите свою ИИ-команду мультимодальности, включая преимущества и риски. Разрушайте техническую изолированность ИИ, поощряя ИИ-специалистов работать над проектами, не относящимися к их технической специализации, например, в области обработки естественного языка и компьютерного зрения. Познакомьте ИИ-команды с поставщиками, специализирующимися на мультимодальных моделях, в рамках общего процесса обучения», — советует он.
Без сомнения, мультимодальный ИИ станет мощной силой в ближайшие годы. Он позволит организациям поднять на новый уровень производительность как классического, так и генеративного ИИ. «Мультимодальный ИИ может сформировать более полную картину, чем это может сделать любой отдельный источник данных. Он может решить проблемы с недостающими или зашумленными данными и заполнить пробелы. В результате мы получаем возможность более полного понимания вещей», — заключает Лайкенс.