Конечно, искусственный интеллект меняет жизнь людей и открывает мир новых приложений, но в своей основе он связан с использованием и генерированием данных, пишет на портале BigDATAwire Дэн Стир, старший вице-президент по развитию корпоративного бизнеса компании Western Digital.
По мере того как индустрия ИИ создает новую масштабную инфраструктуру для обучения моделей ИИ и предоставления услуг ИИ (выводов), возникают важные аспекты, связанные с хранением данных. Во-первых, технология хранения данных играет важную роль в определении стоимости и энергоэффективности различных этапов создания этой новой инфраструктуры. Когда системы ИИ обрабатывают и анализируют существующие данные, они создают новые данные, большая часть которых будет храниться, поскольку они полезны или интересны. Новые сценарии использования ИИ и все более сложные модели делают существующие хранилища и дополнительные источники данных более ценными для контекстуализации и обучения моделей, что приводит к добродетельному циклу данных ИИ, в котором увеличение объема генерируемых данных способствует расширению хранилища данных, что способствует дальнейшему увеличению объема генерируемых данных.
Планировщикам корпоративных дата-центров важно понимать динамическое взаимодействие между ИИ и системой хранения данных. Цикл данных ИИ описывает приоритеты хранения данных для масштабирования рабочих нагрузок ИИ на каждом из шести его этапов. Производители компонентов для хранения данных корректируют свои дорожные карты с учетом этих усиливающихся требований ИИ, чтобы добиться максимальной производительности и минимизировать совокупную стоимость владения.
Давайте вкратце рассмотрим шесть этапов цикла данных ИИ.
1. Архивирование исходных данных, сохранение контента
На этом этапе сырые данные собираются из различных источников и сохраняются безопасно и эффективно. Качество и разнообразие собранных данных имеют решающее значение, они закладывают основу для всего последующего.
Потребности в хранении: емкие жесткие диски корпоративного класса (eHDD) остаются технологией выбора для недорогих систем хранения больших объемов данных, продолжая обеспечивать наибольшую емкость в расчете на накопитель и наименьшую стоимость за бит.
2. Подготовка и ввод данных
Данные обрабатываются, очищаются и преобразуются для ввода в обучаемые модели. Владельцы дата-центров внедряют модернизированную инфраструктуру хранения, такую как быстрые озера данных, для поддержки подготовки и ввода данных.
Потребности в хранении: системы хранения на базе технологии All-flash, содержащие твердотельные накопители большой емкости (eSSD) корпоративного класса, развертываются для дополнения существующих хранилищ на базе жестких дисков или в качестве новых уровней хранения.
3. Обучение моделей ИИ
На этом этапе происходит итерационное обучение моделей ИИ, позволяющее делать точные прогнозы на основе обучающих данных. В частности, модели обучаются на высокопроизводительных суперкомпьютерах, и эффективность обучения во многом зависит от максимального использования GPU.
Потребности в хранении: для максимальной эффективности нужна очень высокая пропускная способность флэш-памяти, подключенной к серверу, выполняющему обучение. Высокопроизводительные (PCIe Gen.5) и оптимизированные для вычислений диски eSSD с низкой задержкой отвечают этим строгим требованиям.
4. Выводы и подсказки
Этот этап включает в себя создание удобных интерфейсов для моделей ИИ, в том числе API, приборных панелей и инструментов, объединяющих контекстно-зависимые данные с подсказками конечного пользователя. Модели ИИ интегрируются в существующие интернет- и клиентские приложения, улучшая их без замены текущих систем. Это означает, что текущие системы должны поддерживаться наряду с новыми ИИ-вычислениями, что приводит к увеличению потребностей в хранении данных.
Потребности в хранении: существующие системы хранения данных модернизируются для увеличения емкости eHDD и eSSD в дата-центрах, чтобы обеспечить интеграцию ИИ в существующие процессы. Аналогичным образом, для внедрения ИИ в существующие приложения требуются более емкие и высокопроизводительные клиентские твердотельные накопители (cSSD) для ПК и ноутбуков, а также более емкие встроенные флэхш-устройства мобильных телефонов, систем IoT и автомобилей.
5. Формирования выводов ИИ
На пятом этапе происходит волшебство в режиме реального времени. Обученные модели развертываются в производственной среде, где они могут анализировать новые данные и в реальном времени делать прогнозы или генерировать новый контент. Эффективность механизма вывода имеет решающее значение для своевременных и точных ответов ИИ.
Потребности в хранении: емкие накопители eSSD для потоковой передачи контекста или данных модели на серверы выводов; в зависимости от масштаба или требуемого времени отклика для кэширования могут использоваться высокопроизводительные вычислительные накопители eSSD, емкие cSSD и более крупные флэш-модули, встроенные в периферийные устройства с поддержкой ИИ.
6. Генерация нового контента
На последнем этапе создается новый контент. В результате работы моделей ИИ часто генерируются новые данные, которые затем сохраняются, поскольку они оказываются ценными или интересными. Хотя этот этап замыкает цикл, он также возвращает данные в цикл, стимулируя непрерывное совершенствование и инновации за счет повышения ценности данных для обучения или анализа будущих моделей.
Потребности в хранении: созданный контент будет снова попадать на корпоративные eHDD-накопители для архивного хранения в дата-центрах, а также на cSSD-накопители высокой емкости и флэш-устройства, встроенные в периферийные устройства с поддержкой ИИ.
Непрерывный цикл увеличения объема генерируемых данных
Этот непрерывный цикл создания и потребления данных увеличивает потребность в технологиях хранения с высокой производительностью и масштабируемостью для управления большими массивами данных ИИ и эффективной рефакторинговой обработки сложных данных, что способствует дальнейшему развитию инноваций.
«Ожидается, что последствия для систем хранения данных будут значительными, поскольку хранилище и доступ к данным влияют на скорость, эффективность и точность моделей ИИ, особенно в условиях распространения больших и качественных наборов данных», — говорит Эд Бернс, директор по исследованиям IDC.
Нет сомнений в том, что ИИ — это следующая трансформационная технология. Поскольку ИИ внедряется практически во всех отраслях, ожидается, что поставщики компонентов систем хранения данных будут все больше адаптировать свои продукты к потребностям каждого этапа описанного выше цикла.