Основатель и технический директор разработчика решений для каталогизации данных Waterline Data Алекс Горелик на портале InformationWeek рассказывает, почему облако лучше локальных приложений подходит для потоковой обработки данных.

По данным аналитических компаний, облачная революция идет полным ходом. Synergy Research заявляет, что облачные технологии стали причиной снижения роста рынка онпремисных технологий. Forrester в своем отчете «Predictions 2019: Cloud Computing» утверждает, что облака «вступают в пору зрелости, становясь основой для цифровой трансформации бизнеса».

Однако несмотря на то, что за последние несколько лет компании успешно перенесли в облако широкий спектр ИТ-компонентов, они неохотно «отрывают» от своей внутренней инфраструктуры сервисы, которые отвечают за обработку больших данных. Это связано с тем, что предприятия, которые принялись за внедрение Hadoop и других крупномасштабных технологий анализа данных на этапе их зарождения, вынуждены были проводить эксперименты с ними в локальной среде. Однако те организации, которые столкнулись с необходимостью аналитики данных, пришли к выводу, что Hadoop слишком сложен для развертывания и лучше всего обратиться к услугам облачных провайдеров.

Развертывание физического серверного кластера требует много усилий

Теперь не имеет смысла покупать кластер физических серверов, поскольку на AWS или Azure можно заказать аналогичные мощности в виде виртуальных выделенных серверов. Прибегая к помощи облачных служб, вы избавлены от необходимости приобретения аппаратного обеспечения, его дальнейшей настройки и подключения к сети. Другими словами, вы можете без промедления приступить к применению аналитических программ, вместо того, чтобы потратить кучу времени на развертывание физической инфраструктуры, выбор аналитических программ для локального применения и другие сопутствующие вопросы (лицензирование, обучение персонала и пр.).

Нехватка навыков

Для работы с большими данными требуется квалификация. Как известно, рынок испытывает нехватку специалистов в этой области. Поставщики облачных решений постоянно работают над упрощением инструментов аналитики больших данных, обеспечивая бóльшую автоматизацию. Они обладают возможностью оперативно подключать/отключать, а также масштабировать массивные вычислительные кластеры, что снижает потребность в специалистах, которые обладают глубокими познаниями в сфере аналитики данных и которых не так просто найти.

Снижение рисков

Выбирая для реализации своих стратегий в области больших данных облако, предприятие тем самым значительно снижает риски. К примеру, приступая к анализу данных, вы далеко не всегда знаете заранее, содержат ли они крупицы ценной информации. В случае применения облачных решений можно загрузить определенный набор данных в виртуальный кластер, проанализировать его и затем безболезненно свернуть, если анализ не принес ожидаемого результата, — и все это без каких-либо рисков для проекта.

Эти операции приобретают особый смысл, если в данных будет обнаружен потенциал для раскрутки бизнес-проекта — облачная среда поможет быстро увеличить количество систем для его масштабирования, не тратя время и деньги на покупку и внедрение онпремисных систем, а также ПО.

Конечно масштабирование применимо не для всех проектов: в некоторых случаях — в зависимости от характера проекта или типов данных — лучше всего наращивать производительность локальной системы и поддерживать ее работоспособность. Тем не менее, в облаке это сделать намного проще, что значительно снижает риски при реализации проектов.

Дополнительные затраты vs крупные первоначальные инвестиции

Каждому уровню риска соответствует определенный уровень финансовых затрат. Модель облачных развертываний, в том числе связанных с большими данными, предусматривает схему оплаты, когда потребитель оплачивает только те услуги, которые он использует. На практике это означает, что если ваш экспериментальный проект не дает отдачу, его можно закрыть, своевременно зафиксировав финансовые потери. Они могут оказаться на порядки выше, если для реализации закрытого по каким-то причинам проекта было закуплено дорогостоящее оборудование.

Эластичность

Гибкость облака придает бóльшую прозрачность процессу реализации проекта. Принимаясь за обустройство физического кластера из серверов, вы ограничены уровнем их производительности, который зависит от объема памяти, мощности процессора, пропускной способности шины, объема хранилища. Для сравнения, если для решения аналитической задачи кластеру из 100 узлов для обработки массива данных потребуется 10 часов, то за ту же цену в облаке можно задействовать 1000 узлов, выполнив работу за час.

Эластичность облака также помогает организациям обмениваться массивами данных. Перемещение больших массивов данных является проблемой даже внутри организации, поскольку добавление новых пользователей создает нагрузку на систему. Например, одному бизнес-подразделению при подключению к данным другого бизнес-подразделения может не хватить вычислительной мощности, чтобы поддерживать большее количество пользователей. Когда данные хранятся в облаке, скорость доступа к ним (без дублирования данных) можно увеличить. И даже если данные необходимо дублировать, то в облаке этот процесс не вызывает особых осложнений.

Рынок наконец заполонили аналитические сервисы, которые работают из облака, снижая стоимость и сложность обработки больших данных, при этом делают это с большей гибкостью в сравнении с локальными инструментами.