Карлос Мелендес, соучредитель и вице-президент по операциям компании Wovenware, рассказывает на портале The New Stack о том, что такое мультимодальный искусственный интеллект, о конкретных сценариях его использования, а также о проблемах, которые необходимо преодолеть для обеспечения его эффективного применения.
Мультимодальный ИИ появляется в поле вашего зрения именно тогда, когда вы начинаете думать, что ИИ не в состоянии сделать больше для снижения рутинной рабочей нагрузки, создания контента с нуля, сортировки огромных объемов данных для получения информации или выявления аномалий на рентгеновском снимке.
До недавнего времени ИИ был ориентирован в основном на понимание и обработку либо текстов, либо изображений — так сказать, имел «один фокус». Однако сегодня в мире ИИ появился настоящий мастер на все руки — мультимодальный ИИ. Этот новый класс ИИ предполагает интеграцию множества средств, способных обрабатывать различные вводимые данные, такие как изображения, видео, аудио и текст.
Что действительно обеспечивает мультимодальный ИИ, так это контекст. Поскольку он способен распознавать закономерности и связи между различными типами входных данных, результат получается более насыщенным и интуитивно понятным, что делает его ближе к многогранному человеческому интеллекту, чем когда-либо прежде.
Как и генеративный ИИ (GenAI) ранее, мультимодальный ИИ обещает совершить революцию практически во всех отраслях и привнести совершенно новый уровень понимания и автоматизации в человеко-машинное взаимодействие.
Уже сейчас многие крупные хайтек-компании ведут борьбу за доминирование в области мультимодального ИИ. Одним из последних игроков стала компания X (ранее Twitter), выпустившая Grok 1.5, которая, по ее утверждению, превосходит своих конкурентов в понимании пространственных объектов реального мира. Среди других игроков — Apple MM1, Anthropic Claude 3, Google Gemini, OpenAI GPT 4 и некоторые другие.
Хотя ИИ существует во многих формах — от машинного обучения и глубинного обучения до прогнозной аналитики и компьютерного зрения, настоящим прорывом в области мультимодального ИИ является компьютерное зрение. Благодаря мультимодальному ИИ возможности компьютерного зрения выходят далеко за рамки простой идентификации объектов. Способность объединять множество типов данных позволяет ИИ-решениям понимать контекст изображения и принимать более точные решения. Например, изображение кошки в сочетании с аудиозаписью мяуканья позволяет с большей точностью идентифицировать все изображения кошек. В другом примере изображение лица в сочетании с видео может помочь ИИ не только идентифицировать конкретных людей на фотографиях, но и повысить контекстуальную осведомленность.
Мультимодальный ИИ в реальных условиях
Сценарии использования мультимодального ИИ только начинают появляться, и по мере развития он будет использоваться так, как сегодня даже невозможно себе представить. Рассмотрим некоторые из способов его применения, которые уже существуют или могут появиться в ближайшее время:
- Электронная коммерция. Мультимодальный ИИ может анализировать текст, изображения и видео в данных социальных сетей, чтобы адаптировать предложения для конкретных людей или сегментов аудитории.
- Автомобильная промышленность. Мультимодальный ИИ может повысить возможности и безопасность самоуправляемых автомобилей, объединяя данные с нескольких датчиков, таких как камеры, радары или системы GPS, для повышения точности.
- Здравоохранение. Он может использовать данные снимков и сканирования, электронных медицинских карт и результатов генетического тестирования, чтобы помочь врачам ставить более точные диагнозы. А также для составления более персонализированных планов лечения.
- Финансы. Он может позволить улучшить оценку рисков путем анализа данных в различных форматах, чтобы получить более глубокое представление о конкретных лицах и их уровне риска по ипотечным кредитам и т. д.
- Охрана природы. Мультимодальный ИИ может идентифицировать китов по спутниковым снимкам, а также по издаваемым ими звукам, для отслеживания миграционных процессов и изменения мест кормления.
Проблемы внедрения мультимодального ИИ в операционную деятельность
Мультимодальный ИИ — интересная разработка, но ей еще предстоит пройти долгий путь. Основная проблема заключается в интеграции информации из разрозненных источников в единое целое. Для этого необходимо разработать алгоритмы и модели, способные извлекать значимые инсайты из каждой модальности и интегрировать их для создания комплексных интерпретаций.
Еще одной проблемой является нехватка чистых, маркированных мультимодальных наборов данных для обучения моделей ИИ. В отличие от наборов данных по одной модальности, которые более многочисленны, мультимодальные наборы требуют аннотаций, отражающих корреляции между различными модальностями, что делает их создание более трудоемким и ресурсоемким. Тем не менее достижение правильного баланса между модальностями имеет решающее значение для обеспечения точности и надежности систем мультимодального ИИ.
Как и в случае с другими формами ИИ, обеспечение беспристрастности мультимодального ИИ является ключевым моментом, который усложняется из-за разнообразия типов данных. При разработке решений необходимо учитывать различные типы изображений, текста, видео и аудио, а также предубеждения, которые могут возникнуть у самих разработчиков.
Конфиденциальность и защита данных также требуют внимания, учитывая огромный объем персональных данных, которые могут обрабатывать мультимодальные системы ИИ. Могут возникнуть вопросы о праве собственности на данные, согласии на их передачу и защите от неправомерного использования в условиях, когда люди не могут полностью контролировать результаты работы ИИ.
Решение этих этических проблем требует совместных усилий разработчиков, правительств, лидеров отрасли и частных лиц. Прозрачность, подотчетность и справедливость должны быть приоритетными на протяжении всего жизненного цикла разработки мультимодальных систем ИИ, чтобы снизить их риски и укрепить доверие пользователей.
Мультимодальный ИИ поднимает возможности ИИ на новую высоту, позволяя получать более богатые и глубокие инсайты, чем это было возможно ранее. Однако каким бы «умным» ни станет ИИ, он никогда не сможет заменить человеческий разум с его многогранными знаниями, интуицией, опытом и рассуждениями. ИИ еще предстоит пройти долгий путь, но начало положено.