Сможет ли фреймворк Hadoop, с его открытой архитектурой и с виду безграничными возможностями системы, задуманной для обработки огромных объемов данных, превзойти корпоративные хранилища данных (enterprise data warehouses, EDW) — системы, которые десятилетиями использовались для отчетности, анализа данных и быстрого доступа к ключевым характеристикам БД? Или же нынешние испытывающие информационный голод организации продолжат отдавать предпочтение корпоративным хранилищам в качестве базы для бизнес-аналитики?
Мы думаем, что ответ нужно искать где-то посередине.
EDW-хранилища, так же как и сопутствующие им пакетные ETL-процессы (extraction, transformation and loading — извлечение, преобразование и загрузка), могут функционировать в связке с технологией Hadoop в рамках единой стратегии, предлагающей наглядный план действий для создания аналитических (в т. ч. бизнес-аналитических) систем.
Успешные компании смогли создать и внедрить четкие процессы для обеспечения более свободного доступа к данным, многофункциональной аналитики и реальных преимуществ для бизнеса посредством проектов по обработке данных. Они наделили свои бизнес-подразделения беспрецедентной мощью, которую заключает в себе информация.
Сомнения насчет предпочтительности того или иного варианта вполне понятны. EDW лежит в основе любой бизнес-аналитической системы и чаще других систем применяется для обработки хорошо организованных, структурированных данных вроде тех, что используются в финансовой отчетности.
Тем не менее, EDW являются дорогостоящими структурами хранения данных, а их возможности ограничены. Обработка и объединение объемных данных, поступающих из разных источников, по разным причинам представляют определенные трудности, в том числе из-за сложностей доступа к историческим данным, медлительности пакетной обработки, сложности задачи.
С учетом экспоненциального роста количества и типов доступных данных (как структурированных, так и неструктурированных) становится ясно, что EDW-хранилище переросло свое первоначальное предназначение, которое заключалось в том, чтобы посредством обработки хорошо структурированных данных обеспечить периодически возникающие нужды в подготовке отчетной документации и аналитики. Такие решения никогда не предназначались для того, чтобы вмещать гигантские массивы данных или поддерживать анализ неструктурированных данных.
Обычно данные поступали в EDW посредством выполнения ETL-процесса, но огромные объемы данных, часто неструктурированных, привели к тому, что достигнут предел возможностей ETL. Не удовлетворенные в своих стремлениях получить панорамное представление о своем бизнесе в режиме реального времени, некоторые крупные бизнесмены теперь пытаются уменьшить свою зависимость от EDW.
Устаревшие системы — это не единственная проблема: любое новое техническое решение сопряжено с определенными трудностями. В последние годы в качестве инструмента, способного пропустить через себя неограниченные массивы как структурированных, так и неструктурированных данных (выполнить анализ человеческого генома, например), стал весьма популярен открытый фреймворк Hadoop, предназначенный для обработки больших объемов данных.
Однако некоторые руководители крупных компаний по вполне понятным причинам остерегаются Hadoop и вместо него делают выбор в пользу удобств EDW-хранилищ с их более контролируемой структурой. Hadoop подобен океану данных, причем популярности этой технологии в основном препятствуют трудности, сопутствующие извлечению нужных данных, планированию способов обнаружения данных, донесению ценности усилий по внедрению Hadoop до бизнес-партнеров и смягчению опасений относительно рисков и соблюдения нормативных требований.
Прагматичный подход к выбору «EDW или Hadoop»
Существует взвешенная методика решения вопросов выбора между EDW и Hadoop, однако она требует прагматичного и гибкого подхода.
Составьте план действий по ведению в будущем отчетной документации и аналитики на базе EDW
Несмотря на то, что рост EDW не поспевает за емкостными характеристиками Hadoop, все же EDW-хранилища в обозримом будущем останутся главными источниками хорошо смоделированных, изученных и структурированных данных для финансовой и аудиторской отчетности.
Настройте Hadoop на выполнение конкретных задач
По мере развития Hadoop спектр его возможностей растет соответственно. Hadoop необходимо развертывать для выполнения таких задач, как хранение и промежуточная перегрузка данных (так как эта платформа способна предоставить доступ к обширным объемам структурированных и неструктурированных данных), а также архивирование (так как низкие затраты на хранение решают проблему архивирования).
Составьте план действий по работе с Hadoop
Определитесь с теми функциональными возможностями Hadoop, которые могут вам понадобиться для экспериментирования и разбора типичных аналитических задач, представляющих наибольшую важность для бизнеса.
Оптимизируйте и упростите пакетный ETL-процесс
Сюда входит удаление или консолидация некоторых пакетных операций, изменение порядка выполнения скриптов, предоставление нужных данных и более качественный технический контроль, обеспечивающий работу функций, описанных в плане действий по EDW.
Разработайте инструментарий за рамками ETL
В него входит интеграция данных в режиме реального времени; система извлечения, загрузки и преобразования, а также средства отслеживания измененных данных.
Разработайте средства виртуализации данных
Они могут помочь объединить данные из EDW, Hadoop и исходных источников и обеспечить более простую их интеграцию и доступ к ним, не нарушая структуры и развития систем EDW и Hadoop.
Разработать единую стратегию обработки данных с четким планом действий непросто, но все же реально. Такая стратегия поможет вам подготовить фундамент для прогрессивной, ориентированной на цифровое будущее организации.