Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Искусственный интеллект: Статьи Новости компаний Решения

Панорама

Дмитрий Рыкунов: «Компании, не использующие ИИ, рискуют сильно отстать в развитии»

Международный консультант по искусственному интеллекту рассказал, как нейросети помогают компаниям повысить …

Светлана Шарилина: «Не стоит переоценивать роль политического фактора в импортозамещении»

Практически все серверные стойки оснащаются PDU (Power Distribution Unit). О роли этих, казалось бы …

Андрей Разин, ICL Astra Services: «Мы видим большой спрос заказчиков на готовые решения, включающие в себя ПО, оборудование и техническую поддержку»

Программно-аппаратные комплексы уже стали неотъемлемой частью современного рынка. Они обеспечивают удобство, надежность …

Мария Грачева: развитие облаков идет поступательно, быстро, логично

Развитие «облачной» составляющей национального ИТ-рынка в российских условиях идет как количественно — …

Как новая библиотека управления состоянием StatemanJS облегчает жизнь разработчиков?

Сфера информационных технологий стремительно и непрерывно развивается каждый день — одни программные продукты …

Передовая инфраструктура для корпоративных конвейеров данных искусственного интеллекта

08.08.2024

Способность собирать, обрабатывать и использовать огромные объемы данных отличает ведущие организации в современном ландшафте, основанном на данных. Чтобы оставаться впереди, предприятия должны освоить все сложности конвейеров данных искусственного интеллекта, пишет на портале Datanami Молли Пресли, старший вице-президент по маркетингу компании Hammerspace.

Использование аналитики данных, BI-приложений и хранилищ структурированных данных является зрелой областью, и стратегии извлечения ценности из структурированных данных хорошо известны. Однако взрыв генеративного ИИ теперь обещает извлечение скрытой ценности и из неструктурированных данных. Корпоративные данные часто хранятся в разрозненных хранилищах, каждое из которых имеет свою структуру, формат и протоколы доступа. Интеграция этих разнообразных источников данных представляет собой серьезную проблему, но является важнейшим первым шагом в создании эффективного конвейера ИИ-данных.

В быстро развивающемся ландшафте ИИ предприятия стремятся использовать весь потенциал инсайтов, основанных на ИИ. Основой любой успешной инициативы в области ИИ является надежный конвейер данных, который обеспечивает беспрепятственный поток данных для извлечения инсайтов.

Преодоление разрозненности данных для ускорения внедрения ИИ-конвейеров

Барьеры, разделяющие хранилища неструктурированных данных, являются серьезным ограничением для того, чтобы ИТ-организации могли быстро внедрять ИИ-конвейеры без выходящих из-под контроля затрат, управления и сложности.

Организациям необходимо иметь возможность эффективно использовать существующие данные, и они не могут позволить себе перестраивать существующую инфраструктуру для переноса всех неструктурированных данных на новые платформы для реализации ИИ-стратегий. Сферы применения ИИ и технологии меняются так быстро, что владельцам данных необходимо иметь возможность в любой момент переключиться с одной платформы на другую, чтобы увеличить или уменьшить масштаб или объединить несколько площадок с существующей инфраструктурой, не нарушая при этом доступ к данным для существующих пользователей или приложений. Какими бы разнообразными ни были сценарии использования ИИ, общим знаменателем для них является необходимость сбора данных из множества различных источников и зачастую из разных мест.

Основная проблема заключается в том, что доступ к данным как для людей, так и для ИИ-моделей всегда осуществляется через файловую систему, а файловые системы традиционно встраиваются в инфраструктуру хранения данных. В результате такого подхода, ориентированного на инфраструктуру, когда данные перерастают платформу хранения, на которой они находятся, или когда меняющиеся требования к производительности или стоимости диктуют использование других типов хранения, пользователям и приложениям приходится прокладывать множество путей доступа к несовместимым системам, чтобы получить доступ к своим данным.

Эта проблема особенно актуальна для рабочих нагрузок ИИ, где важнейшим первым шагом является консолидация данных из нескольких источников для получения глобального представления обо всех них. Рабочие нагрузки ИИ должны иметь доступ к полному набору данных для классификации и/или маркировки файлов, чтобы определить, какие из них следует доработать на следующем этапе процесса.

На каждом этапе пути реализации ИИ данные будут уточняться. Это может включать очистку и обучение большой языковой модели (LLM) или, в некоторых случаях, настройку существующей LLM для итеративного вывода, чтобы приблизиться к желаемому результату. На каждом этапе также есть различные требования к производительности вычислений и хранения данных, начиная от медленных и менее дорогих систем массового хранения и архивов и заканчивая высокопроизводительными и более дорогостоящими NVMe-хранилищами.

Фрагментация, вызванная привязкой файловых систем к хранилищам на уровне инфраструктуры, не является новой проблемой, характерной только для сценариев использования ИИ. На протяжении десятилетий ИТ-специалисты стояли перед выбором: перенасыщать инфраструктуру хранения для решения проблемы подмножеств данных, требующих высокой производительности, или платить «налог на копирование данных» и преодолевать дополнительные сложности, связанные с перемешиванием копий файлов между различными системами. Эта давняя проблема теперь проявляется и при обучении ИИ-моделей, а также в процессе ETL.

Отделение файловой системы от инфраструктурного уровня

Традиционные платформы хранения данных встраивают файловую систему в инфраструктурный уровень. Однако программно-определяемое решение, совместимое с любой локальной или облачной платформой хранения данных от любого производителя, создает высокопроизводительную кросс-платформенную параллельную глобальную файловую систему, которая охватывает несовместимые хранилища в одном или нескольких местах.

Благодаря тому, что файловая система отделена от базовой инфраструктуры, автоматизированная оркестровка данных обеспечивает высокую производительность GPU-кластеров, ИИ-моделей и инженеров по данным. Все пользователи и приложения во всех местах имеют доступ для чтения/записи ко всем данным. Не к копиям файлов, а к тем же самым файлам через единую глобальную плоскость управления метаданными.

Расширение возможностей ИТ-организаций с помощью автоматизации рабочих процессов самообслуживания

Поскольку во многих отраслях, таких как фармацевтика, финансовые услуги или биотехнологии, требуется архивировать как учебные данные, так и полученные модели, возможность автоматизировать размещение этих данных на недорогих ресурсах является критически важной. Благодаря настраиваемым тегам метаданных, отслеживающим происхождение данных, детали итераций и другие этапы рабочего процесса, вызов старых данных модели для повторного использования или применение нового алгоритма — простая операция, которая может быть автоматизирована в фоновом режиме.

Стремительный переход к использованию рабочих нагрузок ИИ создал проблему, которая усугубляет проблемы изолированности, с которыми ИТ-организации сталкивались на протяжении многих лет.

Чтобы быть конкурентоспособными и справляться с новыми рабочими нагрузками ИИ, доступ к данным должен быть беспрепятственным в изолированных локальных хранилищах и облаках, а также поддерживать очень высокопроизводительные рабочие нагрузки.

Сегодня нужно быть гибкими в динамичной среде, где стационарная инфраструктура может быть трудно расширяемой из-за стоимости или логистики. В результате возможность автоматизировать оркестровку данных между различными изолированными ресурсами или быстро переходить на облачные вычислительные ресурсы и ресурсы хранения, стала необходимостью.

В то же время предприятиям требуется экономично соединить существующую инфраструктуру с этими новыми распределенными ресурсами и обеспечить, чтобы затраты на внедрение рабочих нагрузок ИИ не превышали ожидаемую прибыль.

Чтобы соответствовать многочисленным требованиям к производительности конвейеров ИИ, необходима новая парадигма, способная эффективно преодолеть разрыв между локальными системами и облаком. Такое решение требует новых технологий и революционного подхода, позволяющего вывести файловую систему из инфраструктурного слоя, чтобы конвейеры ИИ могли использовать существующую инфраструктуру любого производителя без ущерба для результатов.

Печать

Передовая инфраструктура для корпоративных конвейеров данных искусственного интеллекта

Преодоление разрозненности данных для ускорения внедрения ИИ-конвейеров

Отделение файловой системы от инфраструктурного уровня

Расширение возможностей ИТ-организаций с помощью автоматизации рабочих процессов самообслуживания

Комментарии