Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Big Data/Аналитика: Статьи Новости компаний Решения

Панорама
Российский суперапп для бизнеса eXpress: новые фичи в 2024 году и планы по развитию В 2024 году рынок корпоративных коммуникаций продолжил …

MIT Tech Review: от решения проблем с данными зависит эффективность генеративного ИИ

05.06.2024

Предварительно обученные большие языковые модели (LLM), такие как GPT-4 и Gemini, — это прекрасно, но реальные конкурентные преимущества дает сочетание LLM с частными данными, говорится в новом отчете MIT Technology Review. Однако вызывает вопросы то, насколько хорошо компании готовят свои частные данные для генеративного ИИ (GenAI), сообщает портал Datanami.

Несомненно, генеративный ИИ привлекает внимание организаций, которые стремятся использовать LLM для создания чатботов, «вторых пилотов» и других типов приложений. Масштабирование ИИ или GenAI является «главным приоритетом» для 82% руководителей, принявших участие в исследовании «AI readiness for C-Suite leaders», проведенном MIT Technology Review по заказу ETL-вендора Fivetran.

Согласно результатам опроса, 83% организаций уже определили источники данных, которые они хотят использовать для ИИ или GenAI, и хорошо представляют, какие данные они хотят использовать в GenAI.

Но насколько хорошо организации подготовлены к тому, чтобы на самом деле связать все воедино и предоставить данные приложениям GenAI, когда они нужны и где они нужны, достаточно очищенные и подготовленные, а также в надлежащем формате? И сделать все это, не подвергая опасности конфиденциальность и безопасность?

В этом, конечно, и заключается настоящая хитрость, с которой справляются не многие организации — по крайней мере, пока.

Трудности, связанные с объединением всех инструментов и методов работы с данными, огромны. Как отмечает аналитик IDC Стюарт Бонд, недавнее исследование IDC показало, что среднестатистическая организация имеет «более дюжины различных технологий только для сбора всей информации о своих данных и столько же для их интеграции, преобразования и репликации. Технический долг здесь очень реален».

Старые инструменты интеграции данных и ETL, разработанные для централизованных хранилищ данных, могут не подойти для новых сценариев использования GenAI, говорится в отчете MIT Tech Review. Именно поэтому примечательно, что 82% опрошенных технологических руководителей заявили, что «приоритетом для них является приобретение решений для интеграции и перемещения данных, которые будут работать и в будущем, независимо от других изменений в нашей стратегии работы с данными и партнеров».

Приобретение более совершенных инструментов интеграции данных и ETL/конвейеров данных, безусловно, является приоритетом (64%), но есть и другие важные инвестиции, которые необходимо сделать, говорится в отчете. Так, 35% назвали в качестве приоритетного пункта озера данных, а 31% — инструменты трансформации данных. Вложения в каталоги данных и LLM оказались приоритетом всего для 7% респондентов, а векторные базы данных и вычислительные слои заняли места в середине рейтинга.

Опрошенные технологические руководители указали на множество проблем, связанных с созданием фундамента данных, включая интеграцию данных и создание конвейеров данных, управление данными и безопасность, а также качество данных и другие вопросы.

В число четырех задач, с которыми организации больше всего сталкиваются при интеграции данных и построении конвейеров данных, входят управление объемом данных; перенос данных из локальных систем в облако; обеспечение доступа в режиме реального времени; управление изменениями в данных. Интеграция данных из разных географических регионов и интеграция данных третьих сторон также получили значительное количество ответов респондентов.

Генеральный директор Fivetran Джордж Фрейзер согласен с тем, что прочная основа данных является обязательным условием успеха GenAI. «Прежде чем нанимать большое количество специалистов по работе с данными и начинать множество проектов по GenAI, необходимо убедиться, что у вас есть корпоративное хранилище данных с чистыми, контролируемыми данными, которые должны поддерживать все ваши традиционные рабочие нагрузки BI и аналитики, — говорит он. — Если организации не начнут с создания прочного фундамента данных, их специалисты по анализу данных будут транжирить свое время на интеграцию и очистку базовых данных».

Данные опроса становятся немного более нюансированными, когда речь заходит об управлении данными, соблюдении требований и отчетности.

Хотя значительная часть респондентов указала, что самыми серьезными проблемами при подготовке данных для ИИ являются управление и безопасность данных (44% респондентов) и интеграция данных или конвейеры (45%), более глубокое изучение ответов выявляет существенную детализацию.

В частности, исследование показывает, что наибольшие опасения по поводу безопасности и управления в значительной степени проявляются в государственных и финансовых учреждениях — двух крайне консервативных секторах, — в то время как технологические руководители в промышленности, розничной торговле и других отраслях не разделяют эти опасения по поводу безопасности и управления практически в одинаковой степени.

«Организации могут не иметь контроля над тем, что кто-то использует часть данных в бизнес-приложении и отправляет их в модель GenAI, — отмечает Бонд. — Это очень важно».

Печать Печать без изображений

MIT Tech Review: от решения проблем с данными зависит эффективность генеративного ИИ

Комментарии