В эпоху больших данных необходим новых подход к управлению данными, пишут на портале InformationWeek сотрудники eBay Аруп Малиаккал Падманабхан (старший менеджер команды инжиниринга платформы) и Тиффани Нгуен (старший программный инженер). Данные поступают из множества источников и должны распределяться по предприятию в различных форматах.
Объем, разнообразие и быстрота поступления данных продолжают расти ошеломительными темпами, что ставит перед компаниями две неотложные проблемы: как выделить из этих данных знания, которые послужат основой действий, и как защитить данные. Решение обеих проблем напрямую связано с управлением данными.
Необходимый уровень управления может обеспечить экосистема Hadoop с помощью метаданных. В идеале — на единой платформе данных.
Новый подход к управлению необходим по ряду причин. В эпоху больших данных они распределяются по предприятию. Данные могут быть структурированными, неструктурированными, полуструктурированными и т. д. Источники данных недоступны тем командам, которые должны управлять данными.
В таких условиях управление данными преследует три важные цели:
- поддержание качества данных;
- реализация контроля доступа и других мер для обеспечения безопасности данных;
- выделение метаданных из наборов данных, чтобы содействовать их защите и потреблению конечными пользователям.
Решения в экосистеме Hadoop
Одним из способов управления данными в среде Hadoop является расстановка тегов. При таком подходе метаданные, которые будут управлять использованием данных, встраиваются в сами данные при прохождении ими различных систем предприятия. Более того, метаданные расширяются и включают дополнительную информацию помимо таких обычных атрибутов, как размер файла, разрешения, даты модификации и т. д. Например, они могут включать сведения о бизнесе, что поможет специалисту по данным оценить полезность данных в конкретной предсказательной модели.
Наконец, в отличие от самих корпоративных данных метаданные могут быть централизованы на единой платформе.
Стандартная файловая система Hadoop Distributed File System (HDFS) способна присваивать расширенные атрибуты, что позволяет обогатить метаданные. Но для больших данных это не всегда подходит. К счастью, имеются альтернативные решения. Система управления метаданными Apache Atlas позволяет присваивать данным теги, а также может служить централизованным хранилищем метаданных. Такое хранилище станет «единым окном» для аналитиков, которые ищут релевантные наборы данных. Кроме того, пользователи популярных систем извлечения данных Hive и Spark SQL, которые являются дружественными для Hadoop, могут самостоятельно расставлять теги.
В целях безопасности Atlas может быть интегрирован с Apache Ranger — системой, обеспечивающей доступ к платформам Hadoop на основе ролей.
Проблемы загрузки метаданных
Как первоначальная загрузка метаданных на платформу Atlas, так и поэтапная загрузка в последующем сопряжены со значительными трудностями. На крупных предприятиях на начальном этапе основную проблему будет представлять объем данных. Для повышения эффективности загрузки может потребоваться оптимизация программного кода.
Последующая поэтапная загрузка представляет более сложную проблему, поскольку таблицы, индексы и авторизованные пользователи непрерывно меняются. Если эти изменения не будут быстро отражаться в доступных метаданных, конечным результатом станет снижение качества данных, доступных конечным пользователям. Чтобы избежать такой проблемы, в число строительных блоков системы следует добавить прослушивателей событий, которые будут фиксировать и обрабатывать изменения практически в реальном времени. Решение реального времени означает не просто улучшение качества данных. Оно также повышает производительность труда разработчиков, которым больше не придется ждать пакетной обработки.
Фундамент цифровой трансформации
Компании осуществляют цифровую трансформацию и пытаются стать в большей степени управляемыми данными. В данной связи высшему руководству следует помнить, что на этом пути нельзя достичь результатов без качества данных и что это требует сильного управления. Если затрагиваются большие данные, то управление на базе расширенных метаданных, хранящихся в центральном репозитории, является работоспособным решением.