Если бы ИТ были телевизионной передачей, то к ним лучше всего подошел бы сериал «Hoarders» («Скопидомы»). Организации ежедневно создают и отправляют в хранение все больше данных и при этом имеют сложности с поиском эффективных мест для их размещения.
Согласно прогнозам IDC, к 2020 г. наши объемы данных подберутся к отметке 44 Зб, и примерно 80% этой информации будет находиться вне баз данных. При столь беспрецедентном росте данных ИТ-группам требуются гибкие, масштабируемые и легко управляемые подходы к хранению и защите данных. Именно здесь проявляется в лучшем свете объектное хранение данных.
Объектное хранение (также называемое хранением данных на объектной основе) представляет собой архитектуру, в которой данными управляют как объектами — в противоположность иным архитектурам, таким как файловые системы, где данными управляют как иерархией файлов, и блоковое хранение, где данные управляются как блоки в среде секторов и дорожек. Каждый объект обычно содержит собственно данные, тот или иной объем метаданных и глобально уникальный идентификатор.
В числе компаний, которые специализируются на объектном хранении данных или по крайней мере предлагают соответствующие опции, можно назвать Cloudian, Pure Storage, Digital Ocean, IBM/Cisco, Dell EMC Virtustream, Spectra Logic, SwiftStack, Qumulo, Minio, NetApp, Hitachi Data Systems, Cohesity, Veritas и др.
Майкл Тсо, сооснователь и CEO фирмы Cloudian и человек с хорошим знанием этого рынка, поделился отраслевой информацией о том, почему он считает системы объектного хранения наиболее эффективными для рабочих нагрузок, связанных с большими данными (включая сценарии, где используется машинное обучение и искусственный интеллект), которые с каждым днем становятся все более обычным явлением.
Ниже мы приводим восемь специфических требований к хранению подобных массивов данных и поясняем, почему приложения искусственного интеллекта (ИИ) и машинного обучения (МО) нуждаются именно в том функционале управления данными, который предоставляют корпоративные решения для объектного хранения.
Требование 1. Масштабируемость
ИИ-система зачастую обрабатывает на коротких отрезках времени громадные объемы данных. Более того, чем больше массивы данных, тем лучше работают алгоритмы ИИ. Сочетание этих факторов предъявляет сильные требования к хранению данных. Microsoft учила компьютеры разговаривать на непрерывных записях речи общей протяженностью в пять лет. Tesla учит автомобили самоуправляемому движению на данных, охватывающих 1,3 млрд. миль. Для управления такими данными нужна система хранения, способная неограниченно масштабироваться
Чем помогает объектное хранение? Эта архитектура представляет собой единственную форму хранения данных, которая безгранично масштабируется в рамках одного пространства имен. А ее модульная организация позволяет в любое время добавлять нужные ресурсы хранения, так что вы можете масштабироваться в ногу с ростом требований бизнеса, не создавая наперед излишние резервы.
Требование 2. Экономичность
Практичная система хранения одновременно должна быть масштабируемой и доступной по деньгам, но эти два атрибута редко сосуществуют в корпоративном хранении данных — высокомасштабируемые системы исторически всегда были более дорогими в смысле соотношения стоимости и вместимости.
Чем помогает объектное хранение? Оно выстраивается на самой низкозатратной платформе отраслевого оборудования. Если к этому приплюсовать низкие издержки на управление и ресурсоэкономные функции сжатия данных, то результат обойдется на 70% дешевле традиционных корпоративных дисковых систем.
Требование 3. Программно-определяемые опции хранения
При огромных массивах данных зачастую требуются гипермасштабируемые дата-центры с уже готовой специально разработанной архитектурой серверов. Возможности смены конфигурации зависят от простоты заранее конфигурируемых устройств.
Чем помогает объектное хранение? При объектном хранении ваши опции развертывания остаются открытыми, и у вас есть свобода выбора аппаратуры или программно-определяемых способов хранения.
Требование 4. Гибридная архитектура
Разные типы данных предъявляют разные требования к производительности, и это должна отражать аппаратура. Системы должны иметь правильную комбинацию технологий хранения для реагирования на сиюминутные потребности в масштабировании и производительности, а не работать в малоэффективном однообразном режиме.
Чем помогает объектное хранение? Оно использует гибридную архитектуру с механическими дисками для пользовательских данных и SSD-накопителями для чувствительных к быстродействию метаданных, что позволяет оптимизировать затраты и производительность.
Требование 5. Параллельная архитектура
Когда массивы данных неограниченно растут, важна архитектура с параллельным доступом. В противном случае в системе будут возникать заторы, ограничивающие ее рост.
Чем помогает объектное хранение? Оно использует архитектуру кластеров без общих ресурсов, подразумевающую, что все части системы работают параллельно. Объемы обработки данных непрерывно растут с расширением системы.
Требование 6. Долговечность данных
Создавать резервные копии многопетабайтных массивов данных МО нереально; обычно это неприемлемо в плане финансов и затрат времени. Но в любом случае вы не можете оставлять информацию без защиты. Поэтому система хранения должна быть самозащищенной.
Чем помогает объектное хранение? Оно проектируется со встроенной избыточностью, и данные защищены без отдельного процесса архивирования. Более того, чтобы оптимизировать эффективность, вы можете выбрать для каждого типа данных нужный уровень защищенности. Системы можно сконфигурировать так, чтобы выдерживать отказы многих узлов или даже потерю целого дата-центра.
Требование 7. Локальность данных
Хотя часть данных МО будет размещаться в облаке, они будут оставаться в немалых объемах и в дата-центре. Причины тому разные, и тремя из них являются производительность, желание избежать затрат и соблюдение законодательных норм. В конкурентной среде локальное хранение данных должно иметь те же достоинства в смысле экономии и масштабируемости, что и облачные решения.
Чем помогает объектное хранение? Это всегда хранение в облаке. Многие облачные провайдеры предлагают эту возможность в публично-облачной инфраструктуре. Но сегодня экономичность и масштабируемость облаков доступны и в локальном варианте.
Требование 8. Облачная интеграция
Независимо от того, где размещаются данные, облачная интеграция по двум причинам будет выступать как важное требование. Во-первых, многие из инноваций в сфере ИИ и МО зарождаются в облаке. Локальные системы, интегрированные с облаком, будут обеспечивать наибольшую гибкость применительно к использованию нативно-облачных инструментов. Во-вторых, при генерации и анализе информации скорее всего будет происходить перетекание данных в облако и обратно. Локальное решение обязано упрощать это перетекание, а не ограничивать его.
Чем помогает объектное хранение? Оно должно быть облачно-интегрированным в трех аспектах. Во-первых, решения должны использовать Amazon S3 API, фактический стандарт языка облачного хранения. Во-вторых, желательно, чтобы они упрощали многоуровневое хранение с перемещением данных в публичные облака Amazon, Google и Microsoft и обратно, и позволяли видеть локальные и облачные данные в пределах одного пространства имен. В-третьих, данные, хранимые в облаке, должны быть доступны непосредственно из облачных приложений. Такой бимодальный доступ позволит вам взаимозаменяемо использовать как облачные, так и локальные ресурсы.
Чтобы полностью реализовать потенциал ИИ/МО, необходима инфраструктура, поддерживающая инновации. Современные решения для объектного хранения должны обеспечивать масштабируемость, экономичность по затратам и интероперабельность, которые усилят возможности этих нарождающихся технологий.