Способность собирать, обрабатывать и использовать огромные объемы данных отличает ведущие организации в современном ландшафте, основанном на данных. Чтобы оставаться впереди, предприятия должны освоить все сложности конвейеров данных искусственного интеллекта, пишет на портале Datanami Молли Пресли, старший вице-президент по маркетингу компании Hammerspace.

Использование аналитики данных, BI-приложений и хранилищ структурированных данных является зрелой областью, и стратегии извлечения ценности из структурированных данных хорошо известны. Однако взрыв генеративного ИИ теперь обещает извлечение скрытой ценности и из неструктурированных данных. Корпоративные данные часто хранятся в разрозненных хранилищах, каждое из которых имеет свою структуру, формат и протоколы доступа. Интеграция этих разнообразных источников данных представляет собой серьезную проблему, но является важнейшим первым шагом в создании эффективного конвейера ИИ-данных.

В быстро развивающемся ландшафте ИИ предприятия стремятся использовать весь потенциал инсайтов, основанных на ИИ. Основой любой успешной инициативы в области ИИ является надежный конвейер данных, который обеспечивает беспрепятственный поток данных для извлечения инсайтов.

Преодоление разрозненности данных для ускорения внедрения ИИ-конвейеров

Барьеры, разделяющие хранилища неструктурированных данных, являются серьезным ограничением для того, чтобы ИТ-организации могли быстро внедрять ИИ-конвейеры без выходящих из-под контроля затрат, управления и сложности.

Организациям необходимо иметь возможность эффективно использовать существующие данные, и они не могут позволить себе перестраивать существующую инфраструктуру для переноса всех неструктурированных данных на новые платформы для реализации ИИ-стратегий. Сферы применения ИИ и технологии меняются так быстро, что владельцам данных необходимо иметь возможность в любой момент переключиться с одной платформы на другую, чтобы увеличить или уменьшить масштаб или объединить несколько площадок с существующей инфраструктурой, не нарушая при этом доступ к данным для существующих пользователей или приложений. Какими бы разнообразными ни были сценарии использования ИИ, общим знаменателем для них является необходимость сбора данных из множества различных источников и зачастую из разных мест.

Основная проблема заключается в том, что доступ к данным как для людей, так и для ИИ-моделей всегда осуществляется через файловую систему, а файловые системы традиционно встраиваются в инфраструктуру хранения данных. В результате такого подхода, ориентированного на инфраструктуру, когда данные перерастают платформу хранения, на которой они находятся, или когда меняющиеся требования к производительности или стоимости диктуют использование других типов хранения, пользователям и приложениям приходится прокладывать множество путей доступа к несовместимым системам, чтобы получить доступ к своим данным.

Эта проблема особенно актуальна для рабочих нагрузок ИИ, где важнейшим первым шагом является консолидация данных из нескольких источников для получения глобального представления обо всех них. Рабочие нагрузки ИИ должны иметь доступ к полному набору данных для классификации и/или маркировки файлов, чтобы определить, какие из них следует доработать на следующем этапе процесса.

На каждом этапе пути реализации ИИ данные будут уточняться. Это может включать очистку и обучение большой языковой модели (LLM) или, в некоторых случаях, настройку существующей LLM для итеративного вывода, чтобы приблизиться к желаемому результату. На каждом этапе также есть различные требования к производительности вычислений и хранения данных, начиная от медленных и менее дорогих систем массового хранения и архивов и заканчивая высокопроизводительными и более дорогостоящими NVMe-хранилищами.

Фрагментация, вызванная привязкой файловых систем к хранилищам на уровне инфраструктуры, не является новой проблемой, характерной только для сценариев использования ИИ. На протяжении десятилетий ИТ-специалисты стояли перед выбором: перенасыщать инфраструктуру хранения для решения проблемы подмножеств данных, требующих высокой производительности, или платить «налог на копирование данных» и преодолевать дополнительные сложности, связанные с перемешиванием копий файлов между различными системами. Эта давняя проблема теперь проявляется и при обучении ИИ-моделей, а также в процессе ETL.

Отделение файловой системы от инфраструктурного уровня

Традиционные платформы хранения данных встраивают файловую систему в инфраструктурный уровень. Однако программно-определяемое решение, совместимое с любой локальной или облачной платформой хранения данных от любого производителя, создает высокопроизводительную кросс-платформенную параллельную глобальную файловую систему, которая охватывает несовместимые хранилища в одном или нескольких местах.

Благодаря тому, что файловая система отделена от базовой инфраструктуры, автоматизированная оркестровка данных обеспечивает высокую производительность GPU-кластеров, ИИ-моделей и инженеров по данным. Все пользователи и приложения во всех местах имеют доступ для чтения/записи ко всем данным. Не к копиям файлов, а к тем же самым файлам через единую глобальную плоскость управления метаданными.

Расширение возможностей ИТ-организаций с помощью автоматизации рабочих процессов самообслуживания

Поскольку во многих отраслях, таких как фармацевтика, финансовые услуги или биотехнологии, требуется архивировать как учебные данные, так и полученные модели, возможность автоматизировать размещение этих данных на недорогих ресурсах является критически важной. Благодаря настраиваемым тегам метаданных, отслеживающим происхождение данных, детали итераций и другие этапы рабочего процесса, вызов старых данных модели для повторного использования или применение нового алгоритма — простая операция, которая может быть автоматизирована в фоновом режиме.

Стремительный переход к использованию рабочих нагрузок ИИ создал проблему, которая усугубляет проблемы изолированности, с которыми ИТ-организации сталкивались на протяжении многих лет.

Чтобы быть конкурентоспособными и справляться с новыми рабочими нагрузками ИИ, доступ к данным должен быть беспрепятственным в изолированных локальных хранилищах и облаках, а также поддерживать очень высокопроизводительные рабочие нагрузки.

Сегодня нужно быть гибкими в динамичной среде, где стационарная инфраструктура может быть трудно расширяемой из-за стоимости или логистики. В результате возможность автоматизировать оркестровку данных между различными изолированными ресурсами или быстро переходить на облачные вычислительные ресурсы и ресурсы хранения, стала необходимостью.

В то же время предприятиям требуется экономично соединить существующую инфраструктуру с этими новыми распределенными ресурсами и обеспечить, чтобы затраты на внедрение рабочих нагрузок ИИ не превышали ожидаемую прибыль.

Чтобы соответствовать многочисленным требованиям к производительности конвейеров ИИ, необходима новая парадигма, способная эффективно преодолеть разрыв между локальными системами и облаком. Такое решение требует новых технологий и революционного подхода, позволяющего вывести файловую систему из инфраструктурного слоя, чтобы конвейеры ИИ могли использовать существующую инфраструктуру любого производителя без ущерба для результатов.