Гравитация (притяжение) данных может приводить к сосредоточению все больших объемов данных, что влечет за собой обременительные расходы на управление. Опрошенные порталом ComputerWeekly эксперты обсуждают, как уменьшить гравитацию данных в дата-центрах и облачных средах.
Когда речь идет о корпоративных приложениях, доступ к данным — и к большому их количеству — это, как правило, хорошо. И чем больше требуемых данных хранится в локальной сети, там где они обрабатываются, тем лучше для бизнеса, его приложений, принятия решений и, в некоторых случаях, соблюдения нормативных требований.
Однако необходимость хранить данные и управлять ими порождает и свои собственные проблемы, включая повышение затрат, снижение производительности систем и накладные расходы на управление. Здесь мы сталкиваемся с так называемой «гравитацией данных».
Появляется все больше доказательств того, что богатые данными системы привлекают все больше данных. Это, в свою очередь, привлекает еще больше приложений, зависящих от данных, которые затем притягивают еще больше данных.
Идея гравитации данных была впервые выдвинута исследователем в области ИТ Дэйвом Маккрори в 2010 г. Он утверждал, что когда организации собирают данные в одном месте, они «наращивают массу». Эта масса привлекает сервисы и приложения, поскольку чем ближе они находятся к данным, тем меньше задержка и лучше пропускная способность.
По мере того, как все больше данных собирается вместе, процесс ускоряется. В конце концов, вы приходите к ситуации, когда становится трудно или невозможно переместить данные и приложения в другое место, чтобы удовлетворить потребности бизнеса в рабочих процессах.
В результате затраты растут, рабочие процессы становятся менее эффективными, а компании могут столкнуться с проблемами соблюдения нормативных требований. Маккрори, который сейчас работает в Digital Realty, публикует индекс гравитации данных. Он ожидает, что в период с 2020 по 2024 гг. гравитация данных, измеряемая в гигабайтах в секунду, вырастет на 139%. По его словам, это приведет к серьезной нагрузке на ИТ-инфраструктуру.
В Forrester исследователи описывают гравитацию данных как феномен «курицы и яйца». В своем недавнем отчете о тенденциях развития дата-центров они излагают суть проблемы: «Концепция гласит, что по мере роста данных в определенном месте к ним неизбежно происходит привлечение дополнительных сервисов и приложений из-за требований к задержке и пропускной способности. Это, по сути, увеличивает массу данных в их первоначальном расположении».
Сложности масштабирования
К примерам гравитации данных относится перемещение приложений и наборов данных ближе к центральному хранилищу, которое может быть локальным или расположенным по модели колокации. Это позволяет наилучшим образом использовать существующую пропускную способность и снизить задержки. Однако это также начинает ограничивать гибкость и может затруднить масштабирование для работы с новыми наборами данных или внедрения новых приложений.
Гравитация данных происходит и в облаке. По мере увеличения объема облачных хранилищ аналитические и другие приложения перемещаются к ним. Это позволяет использовать возможности облака по быстрому масштабированию и минимизирует проблемы с производительностью.
Однако это усиливает проблему гравитации данных. Плата за вывод данных из облачного хранилища часто высока, и чем больше данных хранит организация, тем дороже их перемещать, вплоть до того, что перемещение между платформами может стать нерентабельным.
Маккрори называет это «искусственной» гравитацией данных, вызванной финансовыми моделями облачных сервисов, а не технологией.
Forrester отмечает, что новые источники и приложения, включая машинное обучение/искусственный интеллект, периферийные устройства или Интернет вещей (IoT), рискуют создать свою собственную гравитацию данных, особенно если организации не планируют рост данных.
Увеличение объема данных на периферии предприятия создает проблемы с размещением сервисов и приложений, если компании не могут отфильтровать или проанализировать данные на месте (или, возможно, при их передаче). Централизация этих данных может оказаться дорогостоящей и бесполезной, если большая их часть не нужна.
Влияние на хранение данных
Влияние гравитации данных на их хранение, по сути, двойственное — это увеличение затрат и усложнение управления. Затраты будут увеличиваться по мере роста требований к емкости, но для локальных систем этот рост вряд ли будет линейным.
На практике компании столкнутся с необходимостью инвестировать в новые массивы хранения по мере достижения предельной емкости, что может потребовать дорогостоящих капитальных затрат. Однако велика вероятность того, что им придется инвестировать и в другие области для повышения эффективности использования данных и производительности.
Это может включать в себя использование твердотельных накопителей или многоуровневое хранение данных для перемещения менее используемых данных из самых высокопроизводительных и резервных систем для обеспечения доступности, а также инструменты управления хранением данных для контроля всего процесса.
Некоторые поставщики сообщают, что компании обращаются к гиперконвергентным системам — которые объединяют системы хранения, обработки и сетевого взаимодействия — для удовлетворения растущих потребностей в хранении данных при сохранении баланса производительности. Благодаря конвергенции обработки и хранения данных гиперконвергентные системы обеспечивают близость и сокращают задержки. Но, опять же, эти системы сложнее плавно масштабировать.
В облаке емкость масштабируется более плавно, поэтому там ИТ-директора имеют возможность более тесно увязывать хранение данных с их объемами.
Однако не все компании могут перенести все свои данные в облако, и даже те, чьи нормативные и клиентские требования позволяют это сделать, должны будут обратить внимание на стоимость и время, необходимое для перемещения данных.
Близость данных к их обработке не гарантирована, поэтому компаниям нужны архитекторы облачных вычислений, которые смогут подобрать вычислительные мощности и ресурсы хранения, а также обеспечить работу облачного хранилища с текущими аналитическими приложениями. Им также нужно быть внимательными, чтобы избежать затрат на вывод данных, особенно тех, которые часто перемещаются в бизнес-аналитику и другие инструменты.
Одним из вариантов является использование нативных облачных приложений крупных провайдеров. Другой вариант — использование облачных шлюзов и нативных облачных технологий, таких как объектное хранение, для оптимизации передачи данных между локальным и облачным хранилищами. Например, как сообщает Forrester, некоторые компании размещают критически важные приложения в дата-центрах с прямым доступом к облачному хранилищу.
В то же время ИТ-директора должны строго контролировать расходы и следить за тем, чтобы облачные покупки «по кредитке» не привели к возникновению «горячих точек» гравитации данных. Технолог Крис Свон разработал модель стоимости гравитации данных, которая может дать довольно подробную картину для облачных хранилищ.
Что делать с гравитацией данных
ИТ-директора, аналитики и поставщики согласны с тем, что гравитацию данных невозможно устранить, поэтому ею необходимо управлять.
Для директоров предприятий по ИТ и управлению данными это означает достижение баланса между слишком большим и слишком малым количеством данных. Они должны поставить перед бизнесом вопрос о данных, которые они собирают, и о данных, которые они хранят. Все ли эти данные нужны? Можно ли анализировать некоторые из них на периферии?
Борьба с гравитацией данных также означает наличие надежных стратегий управления данными. Они должны включать удаление ненужных данных, а также эффективное многоуровневое хранение и архивирование для снижения затрат.
Облако играет здесь свою роль, но затраты необходимо контролировать. Предприятия, скорее всего, будут использовать несколько облаков, а гравитация данных может привести к дорогостоящему их перемещению, если архитектуры приложений и систем хранения разработаны неправильно. Аналитические приложения, в частности, могут создавать изолированные «бункеры». Компаниям необходимо проанализировать имеющиеся у них наборы данных и определить, какие из них подвержены гравитации данных. Именно эти приложения необходимо размещать там, где хранилище может быть спроектировано с учетом масштабирования.
Инструменты, позволяющие анализировать данные на месте и устраняющие необходимость перемещения больших их объемов, могут снизить влияние гравитации данных, а также уменьшить некоторые недостатки облачных технологий с точки зрения стоимости. Это становится актуальным, когда организациям необходимо проанализировать наборы данных в нескольких облачных регионах, приложениях «ПО как услуга» (SaaS) или даже у облачных провайдеров.
Организациям также следует обратить внимание на периферию сети, чтобы понять, могут ли они сократить объемы данных, направляемых в центр, и использовать вместо этого аналитику потоков данных в режиме реального времени.
При постоянно растущем спросе на бизнес-данные и аналитику директорам по ИТ и данным вряд ли удастся устранить гравитацию данных. Но благодаря новым и появляющимся источникам данных, таким как ИИ и IoT, у них, по крайней мере, есть шанс разработать архитектуру, способную управлять ею.