Недавний опрос, предпринятый по заказу поставщика платформы интеграции данных Xplenty, показывает, что почти треть специалистов в области Business Intelligence (BI) мало отличается от «уборщиков данных», так как тратит бо́льшую часть рабочего времени на очистку сырых данных для аналитики.
Исследование сконцентрировало внимание на нескольких аспектах процесса ETL (извлечение, преобразование и загрузка данных), включая преимущества локальных или облачных решений, ощущаемые проблемы и количество времени, уходящего на ETL. Девяносто семь процентов участников опроса заявили, что ETL играет критическую роль в решении задач BI.
При этом больше половины (51%) опрошенных BI-специалистов сообщили, что в настоящее время они используют локально инсталлированные ETL-решения, против 49%, полагающихся на облачные средства. Однако из тех, кто сегодня пользуется локальными ETL-инструментами, 51% отметил, что они «серьезно задумываются» о переводе всех ETL-процессов в облако.
ETL представляет собой процесс извлечения данных из однородных или гетерогенных источников, преобразования данных для хранения в необходимом формате или структуре для целей выполнения запросов и анализа, а также загрузки данных по месту конечного назначения — например, в базу данных, накопитель данных, киоск данных или хранилище данных.
«Хотя многие организации все еще сильно привязаны к существующим локальным технологиям ETL, желание перейти на модель с большой ролью облака сегодня как никогда велико, — сказал Янив Мор, CEO и сооснователь Xplenty. — Облачный вариант ETL по сравнению с локальным имеет целый ряд преимуществ — от большей гибкости в развертывании ресурсов до меньших затрат. Поэтому облако становится все более привлекательным выбором, как в плане производительности, так и в операционном аспекте».
Среди наиболее серьезных проблем в подготовке данных к аналитике 55% респондентов выделили интеграцию данных из разных платформ. Далее следует преобразование, очистка и форматирование входящих данных (39%), интеграция реляционных и нереляционных данных (32 %) и значительность объемов данных, которыми приходится управлять в каждый момент времени (21%).
«Переформатирование, очистка и консолидация больших объемов данных из многих источников зачастую бывает неподъемным делом, — утверждает Мор. — BI-специалисты все еще упорно ищут наилучшие подходы, чтобы сократить время между интеграцией и аналитикой. И в итоге бизнес часто не успевает раскрыть реальный потенциал своих данных для повышения доходов и эффективности операций».
При этом почти треть респондентов (30%) сообщили, что они тратят от 50 до 90% своего времени только лишь на ETL.
«BI-специалистам следует тратить основную часть своего времени на оценку данных и расшифровку паттернов, выявляемых в процессе аналитики, а не на подготовку данных к аналитике, — отметил Мор. — Чем больше времени уходит на то, чтобы сырые данные стали пригодными для аналитики, тем меньше времени остается для извлечения из них реальной ценности. Необходимо сократить время превращения больших данных в конкретную информацию, повышая эффективность процессов и давая своей организации более оперативные ответы, из которых можно быстро извлечь пользу».
Опрос Xplenty был инициирован с целью понять проблемы, с которыми сталкиваются BI-специалисты при подготовке сырых данных к аналитике. В опросе, проходившем с 1 по 11 мая 2015 г., участвовало более двухсот BI-специалистов из разных частей США.