Создание инфраструктуры данных, поддерживающей искусственный интеллект, является главным приоритетом почти для половины лиц, принимающих в организациях решения в области ИТ, и требует инвестиций в управление данными, облачные сервисы и модели машинного обучения, пишет на портале ITPro Today Майк Пирси, технический директор и соучредитель Komprise.
Существует множество технических вопросов, связанных с поддержкой ИИ — какие большие языковые модели (LLM) использовать, где развернуть, какая инфраструктура требуется и как обучать сотрудников?
Недавно Komprise провела опрос «The State of Unstructured Data Management 2024» среди лиц, принимающих решения в области ИТ на предприятиях в США, и почти половина (44%) заявила, что создание инфраструктуры данных для поддержки ИИ является главным приоритетом на сегодняшний день. ИТ-организации также проводят индивидуальное обучение существующих моделей (37%), используют облачные сервисы для ИИ (32%), создают и обучают собственные модели (32%), позволяют сотрудникам использовать коммерчески доступные модели ИИ (29%) и обучают сотрудников (33%).
В этой статье мы рассмотрим эти различные области и предложим несколько рекомендаций для предприятий, создающих свою так называемую «AI-ready infrastructure» — инфраструктуру, готовую к использованию ИИ.
Как всегда в ИТ, при принятии решений в области ИИ-технологий большое значение имеет бюджет, а также безопасность, управление и соответствие требованиям и наличие ИТ-персонала с необходимыми навыками в области ИИ и МО.
Создание инфраструктуры данных, готовой к ИИ
Запуск ИИ-инициативы на вашем предприятии может потребовать разработки и обучения модели, если вам нужно создать свою собственную модель генеративного ИИ (GenAI). Обычно это начинается с приобретения достаточных высокопроизводительных вычислительных ресурсов — дорогостоящих центральных и графических процессоров, которые необходимы для выполнения моделей МО и обработки данных с высокой скоростью. Хотя готовая инфраструктура, общедоступные модели и публичные облачные сервисы обеспечивают преимущества с точки зрения затрат и простоты использования, ИТ-организации также должны взвесить преимущества размещения ИИ внутри компании для улучшения контроля или, скорее, применения гибридного подхода, обеспечивающего необходимый уровень управления данными, прозрачности и безопасности.
Почетный аналитик Gartner Джон-Дэвид Лавлок отмечает, что установка стойки ИИ-серверов обойдется более чем в миллион долларов, а значит средняя стоимость ИИ-сервера составляет 32 тыс. долл. Технологии хранения данных на основе флэш-памяти, разработанные для ИИ, также могут увеличить стоимость проекта. Кроме того, существует необходимость в поддержке и обслуживании всего этого оборудования, для чего требуется штатный ИТ-персонал и современный дата-центр.
Использование корпоративных данных для ИИ
Независимо от того, создаете ли вы свою собственную модель с нуля или, что более вероятно, проводите тонкую настройку и используете готовые модели, вам необходимо управление данными, чтобы передавать ИИ нужные неструктурированные данные. Управление неструктурированными данными автоматизирует рабочие процессы с ИИ-данными и обеспечивает корпоративное регулирование данных, особенно конфиденциальных. Неструктурированные данные, на которые, по данным IDC, приходится 90% всех данных, обычно разбросаны по множеству разрозненных хранилищ, и частью задачи управления данными является обеспечить быстрый поиск, разметку и передачу нужных данных в ИИ-модели.
Облачные сервисы для ИИ
Крупнейшие облачные провайдеры создали комплексные сервисы для поддержки ИИ для организаций, которые не могут или не хотят управлять технологией собственными силами. Компоненты варьируются от быстрого хранения и вычислительных ресурсов до МО, GenAI и инструментов разработки. Несмотря на то, что облачный ИИ имеет явные преимущества с точки зрения затрат — вам не нужно покупать серверы или системы хранения, а также платить за увеличение энергопотребления вашего центра обработки данных, — вы можете легко перерасходовать ресурсы в облаке. Существует также проблема нехватки навыков работы с облачными технологиями.
Стратегия облачного ИИ может быть успешной и экономически эффективной, если вы умеете правильно управлять данными. Например, копирование петабайтов неструктурированных данных в облако и последующая попытка выяснить, какие данные полезны для ИИ, быстро приведут к огромным расходам. Вам также не стоит загружать данные в ИИ-приложение без предварительной очистки: в большинстве организаций имеется большое количество дублирующихся, устаревших или «зомбированных» данных, которые следует удалить. Перед перемещением данных убедитесь, что они в надлежащем виде — классифицированы и упорядочены, — и перемещайте только те данные, которые, по вашему мнению, соответствуют задачам вашего проекта.
Выбирайте сценарии использования с предсказуемой рентабельностью инвестиций и убедитесь, что позже сможете оценить результаты.
Требования к безопасности и соответствию требованиям могут препятствовать размещению ИИ в облаке. Как минимум, понимание рисков, связанных с вашими данными в любом ИИ-сервисе, и знание того, как проводить аудит проектов на предмет риска для данных, являются важными шагами перед началом любого проекта.
Выбор модели машинного обучения
Популярные модели МО, такие как GPT, Claude, Gemini, TensorFlow и PyTorch, используют для обучения огромные общедоступные наборы данных. Однако, чтобы сделать ИИ полезным и заслуживающим доверия для корпоративных проектов, направленных на улучшение операционной деятельности, исследований и разработок или взаимоотношений с клиентами, вам нужно обучить модель на основе ваших собственных данных и сохранить их конфиденциальность. Обучение и/или разработка модели требуют навыков специалистов в области науки о данных, которые разбираются в ведущих языках программирования, таких как Python и R, моделировании и анализе больших данных, моделях МО, а также безопасности и облачных вычислениях.
Амбициозная, хорошо финансируемая команда аналитиков и специалистов в области науки о данных может даже решить разработать модель с нуля. Это может быть связано с желанием получить полный контроль над архитектурой и безопасностью и/или поддержать высокочувствительный конкурентный проект. И хотя существуют такие сообщества, как Hugging Face и OpenAI, которые помогают выбирать компоненты и сотрудничать с другими, это колоссальный прогресс. Такой подход включает в себя очистку и подготовку данных, выбор и обучение алгоритмов, а также тонкую настройку модели для обеспечения точности и надежности. Вам потребуется не только инфраструктура, но и команда инженеров для выполнения этой работы.
Из-за ограниченности ресурсов в большинстве организаций наиболее распространенным подходом к ИИ, вероятно, будет использование предварительно обученных проприетарных или опенсорсных моделей MО с корпоративными данными. Задача получения ИИ-выводов гораздо больше и шире, чем задача обучения ИИ. Поэтому ИТ-организации все активнее инвестируют в создание соответствующей инфраструктуры данных для поиска, обработки, аудита и передачи корпоративных данных в ИИ, с обеспечением при этом регулирования данных.
Использование готового ИИ общего назначения
Опрос Komprise показал, что только 30% организаций выделили бюджет на ИИ, а это означает, что 70% все еще экспериментируют и исследуют эту технологию. И сегодня это, вероятно, означает использование недорогих приложений, таких как OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot или Google Gemini. Сотрудники разных отделов используют эти инструменты для получения ответов на вопросы, написания текстов, создания графики и изображений или написания программного кода — с невероятной скоростью и достаточно хорошими результатами.
Чего не хватает, так это стандартов и общепринятых лучших практик. Какие проекты безопасны и подходят для GenAI? Какие данные следует использовать, а какие следует защищать от несанкционированного доступа? Как следует оценивать точность и легитимность результатов, созданных с помощью GenAI? Что произойдет, если интеллектуальная собственность или данные о клиентах попадут в LLM общего назначения? Как компания может защитить себя от исков об авторском праве или клевете, основанных на произведенных GenAI работах?
Начните с изучения ваших активов данных с точки зрения характеристик данных и количества конфиденциальных данных, таких как личные данные и интеллектуальная собственность. Этот анализ поможет организации разработать политику применения GenAI, которая будет регулировать данные и сценарии использования. Вам понадобится какой-либо инструмент для мониторинга соответствия требованиям и расследования проблем, возникающих при использовании GenAI, — когда и если они возникнут. Можете ли вы отследить, какие данные были отправлены в ИИ-инструмент пользователями или подразделениями? Можете ли вы найти и убрать конфиденциальные данные из каталогов, где их можно обнаружить и использовать в ИИ-инструменте? Некоторые решения для управления неструктурированными данными предоставляют такую функциональность. Регулирование данных для ИИ становится все более востребованной областью для предотвращения негативных последствий применения ИИ, которые могут подорвать доверие и лояльность клиентов и доверие рынка.
Учитывая общую обеспокоенность рынка по поводу ИИ, его известную способность создавать ложные результаты и разрушительные галлюцинации, риск утечки корпоративных данных в LLM общего назначения и затраты на разработку и внедрение технологий ИИ, ИТ-руководителям потребуется четкий план и процесс оценки и внедрения ИИ-стека.