Масштабируемость, аналитика реального времени, совместная работа команд и готовность к новым технологиям — вот ключевые стимулы для создания перспективных конвейеров данных, отмечают опрошенные порталом InformationWeek эксперты.
Конвейер данных — процесс отбора данных из нескольких источников, подготовки данных для надлежащего ввода и последующей доставки данных в пункт назначения — создает рабочие процессы данных между командами по обработке данных, ИТ-отделом и бизнес-подразделениями.
Традиционно конвейеры данных были линейными, что делало процесс извлечения, преобразования, загрузки (ETL) нормой. Предприятия извлекали данные из источников, преобразовывали и очищали их, а затем загружали в хранилище данных или озеро данных.
Но по мере того как технологии искусственного интеллекта все больше способствуют цифровым преобразованиям, конвейеры данных должны стать нелинейными и по возможности исключать перемещение данных, учитывая вес неструктурированных данных и итеративный характер ИИ.
Нелинейные конвейеры данных
Кришна Субраманиан, главный операционный директор и соучредитель Komprise, отмечает, что данные сегодня генерируются повсюду — на периферии, в дата-центре и облаке. Поэтому обработка данных также должна быть распределенной, а значит, конвейеры данных больше не должны предполагать перемещения всех данных в центральное озеро данных перед обработкой. «Это требует новых методов работы с данными, ориентированных на неструктурированные данные и ИИ», — говорит она.
Это означает, что использование композитных архитектур, позволяющих создавать модульные и API-сервисы данных, даст компаниям возможность комбинировать и подбирать лучшие решения для своих потребностей в области конвейеров данных.
Масштабирование конвейеров на несколько источников
Рахул Растоги, CIO компании SingleStore, объясняет, что масштабирование конвейеров данных может добавить дополнительные уровни сложности при обеспечении точности, согласованности, конфиденциальности, управления и безопасности данных в различных источниках — особенно по мере того, как все больше организаций становятся все более жадными до данных.
По его словам, при масштабировании конвейеров становится сложнее добиться низкой задержки — критически важного фактора поддержания современного быстрого темпа — поскольку обработка огромных массивов данных занимает больше времени. «Базовая инфраструктура, такая как системы хранения и вычислительные системы, также должна эффективно масштабироваться, чтобы соответствовать требованиям растущих конвейеров данных», — говорит Растоги.
Еще один момент — соблюдение стандартов конфиденциальности и регулирования данных, за которыми бывает сложно угнаться, поскольку нормативные акты продолжают развиваться.
По словам Растоги, чтобы преодолеть эти сложности, организации должны внедрять масштабируемые платформы данных, рассчитанные на обработку больших объемов данных, и использовать такие методы, как секционирование и шардинг (который распределяет данные по нескольким серверам), для повышения эффективности обработки и масштабируемости. «Им также следует использовать облачные решения, которые предлагают масштабируемые инфраструктуру и системы хранения данных, а также такие преимущества, как механизмы автоматического масштабирования, позволяющие регулировать ресурсы в зависимости от требований рабочей нагрузки», — добавляет он.
Аналитика реального времени, улучшенное взаимодействие
Растоги отмечает, что аналитика реального времени играет важную роль в оптимизации конвейеров данных. «Быстрое обнаружение и принятие мер позволяют решать проблемы с данными в режиме реального времени, что дает возможность предприятиям получать действенные инсайты и адаптировать стратегии», — говорит он.
Для того чтобы организации могли воспользоваться этими преимуществами, им необходимо развернуть платформу данных, способную обрабатывать данные не за минуты, а за миллисекунды, при этом выявляя проблемы качества и полноты и аномалии данных в процессе их обработки.
Растоги добавляет, что сотрудничество между различными командами по работе с данными имеет решающее значение для того, чтобы все участники говорили на одном языке. Важно, чтобы эти команды имели общее понимание определений данных для использования показателей и измерений, а также общую платформу для обработки данных — например, для создания и расширения конвейеров.
Он объясняет, что, хотя стандартизировать технологии обработки данных и платформы данных относительно легко, компаниям следует рассмотреть решения по каталогизации данных и глоссарии для обеспечения согласованности определений данных.
«Еще один момент — внедрение корпоративных семантических слоев по предметным областям и инвестирование в передовой опыт работы с данными, чтобы гарантировать, что все интерпретируют данные одинаково», — отмечает он.
Наличие всех данных в одном месте также способствует сотрудничеству и открывает перед организациями, занимающимися обработкой данных, возможности для создания общих интегрированных структур данных, которые могут использоваться специалистами по анализу данных для обучения моделей или разработчиками для создания интеллектуальных приложений.
Субраманиан отмечает, что конвейеры данных могут создавать рабочие процессы, соединяющие команды специалистов по науке о данных, ИТ- и бизнес-подразделения. «Представьте себе, что пользователи, генерирующие данные, могут помечать те из них, которые затем будут использоваться специалистами по анализу данных для аналитики, а ИТ-отдел управляет жизненным циклом данных, — говорит она. — Это трехсторонняя совместная работа над одними и теми же данными, облегчаемая интеллектуальными рабочими процессами с использованием конвейеров данных».
Конвейеры данных будущего
По словам Растоги, в архитектуре конвейеров данных будущего все большее внимание будет уделяться потоковой обработке и платформам данных с низкой задержкой для получения инсайтов реального времени, что обеспечивается такими инструментами, как Kafka, Flink и Kinesis.
Однако не все данные нужно обрабатывать в режиме реального времени — предприятия могут использовать гибридный подход, чтобы сбалансировать производительность и стоимость.
По прогнозам Растоги, операции с данными (DataOps) и автоматизация будут набирать обороты, поскольку компании будут применять для управления данными принципы программной инженерии, которым раньше не следовали. «Предприятиям также следует обратить внимание на нативно-облачные архитектуры, использующие бессерверные сервисы и масштабируемые облачные базы данных для работы с большими объемами данных и масштабирования», — говорит он.
В качестве еще одного интересного тренда Растоги называет инженерию данных на основе ИИ, позволяющую аналитикам данных собирать и создавать конвейеры данных без знаний и опыта написания кода. «Однако решающее значение будут иметь качество данных и точность конвейера, — говорит он. — Лучше всего начинать с малого, учиться и постепенно расширять масштабы».
По словам Субраманиан, наибольшая эволюция конвейеров данных — это изменение архитектуры для работы с неструктурированными данными и ИИ. «Мы увидим масштабные преобразования в технологиях индексирования данных, управления данными, предварительной обработки данных и рабочих процессов данных с целью удовлетворения этой огромной потребности», — говорит она.