Универсальная («все в одном») платформа данных в ее старой, монолитной форме умерла. Ее исчезновение уступило место разрозненному современному стеку данных, который поставил во главу угла гибкость, но привнес дорогостоящую сложность. Сейчас рынок корректируется в сторону композитных («все что нужно») платформ, сообщает портал BigDATAwire.
Когда стеки означали коробки Teradata и лицензии Oracle, руководители инвестировали в единую монолитную платформу как единственный источник стабильной и всеобъемлющей истины. Эта модель часто приводила к медленным циклам инноваций, негибкой архитектуре и привязке к поставщику. Затем отрасль пошла в противоположном направлении, осуществив «великое разделение», которое привело к появлению современного стека данных. Этот подход, основанный на использовании лучших в своем классе решений, предполагал применение специализированных инструментов, но привел к необходимости поддерживать работу и безопасность множества инструментов, а также диагностировать сбои.
Это вызвало «великое повторное объединение». Платформы расширились до сквозных экосистем, и специалисты по данным задались вопросом, не возвращается ли платформа «все в одном». На самом деле вопрос не в том, какой подход лучше. Вопрос в том, как организации могут объединить оба подхода, чтобы создать стек, который будет модульным и интегрированным там, где это наиболее важно.
Аргумент в пользу разделения — преимущества современного стека данных
Облако было двигателем движения за разделение. Облачная архитектура фундаментально отделила хранение от вычислений, и это единственное изменение сделало монолитную модель устаревшей и позволило процветать новому поколению специализированных инструментов. Команды получили возможность независимо масштабировать хранение и вычисления, сократить нецелевые расходы и выбирать подходящие для своих целей движки без перемещения данных.
Этот подход дал неоспоримые преимущества, позволив командам создавать индивидуальные стеки. Вот основные:
- Оптимизация затрат: модели с оплатой по факту использования и возможность выбора решений для каждой части стека позволяют осуществлять более детальный финансовый контроль.
- Быстрое внедрение инноваций: для компании, сфокусированной на преобразовании данных, быстрее самой внедрить инновации в этой нише, чем ожидать появления модуля трансформации в массивной платформе.
- Свобода от привязки к поставщику: возможность заменять компоненты по мере появления более совершенных технологий является стратегическим преимуществом.
- Гибкость и контроль: команды по работе с данными могут выбирать лучший инструмент для конкретной задачи.
Разделение — это создание идеального сочетания компонентов. Стандартные форматы обеспечивают стабильность данных, в то время как движки развиваются, а конвейеры совершенствуются. Аналитики и специалисты по данным получают инструменты, которые им действительно нравятся, а команда платформы сохраняет возможность обновлять слои при изменениях на рынке. Это становится возможным благодаря сочетанию открытых форматов и модульных движков.
Аргумент в пользу повторного объединения — скрытые издержки сложности
Разделение имеет обратную сторону, которую многие называют «Франкенштейном» — оно характеризуется множеством унаследованных систем, с течением времени обросших связями между собой. Каждый новый инструмент добавляет конфигурацию, разрешения, коннекторы и режимы обработки сбоев. Эксперты из сообщества специалистов по данным описывают, как разрастание инструментов приводит к сложности и как обещание современного стека о единых модульных строительных блоках часто превращается в операционный кошмар.
Интеграционные издержки реальны. Обеспечение взаимодействия десятков компонентов — это не разовый проект. Он требует частых обновлений и тестирования на совместимость. Даже в смежных дисциплинах, таких как безопасность, независимые исследования подчеркивают издержки применения инструментария от разных поставщиков, от непоследовательной видимости до операционных затруднений. Этот опыт тесно связан с работой команд по обработке данных, которые управляют пересекающимися инструментами обеспечения качества, наблюдаемости и отслеживания происхождения.
Безопасность и управление также распределены по многим продуктам. Ролевой доступ, удержание и соответствие нормативным требованиям трудно обеспечивать единообразно, когда везде разные политики. Академические и отраслевые исследования качества конвейеров данных и систем с интенсивным использованием данных постоянно подчеркивают проблемы совместимости и архитектурные трения, возникающие при масштабировании систем.
Существует также цикл «перекладывания ответственности» — каждый раз, когда происходит сбой в работе конвейера данных, устранение неполадок становится сложной задачей. Причина в инструменте сбора данных, уровне преобразования или платформе BI? Определить источник проблемы становится практически невозможно, что приводит к ее затяжному решению.
Кроме того, при найме и обучении персонала проблемой становится когнитивная нагрузка. Новые члены команды должны осваивать множество пользовательских интерфейсов, интерфейсов командной строки и языков, специфичных для конкретной области. Руководители должны выбирать между широкими специалистами, которые могут поддерживать целостность стека, и специалистами, которые продвигают вперед один слой.
Ставки высоки и за пределами команды по работе с данными. Одно нарушение безопасности, связанное с IoT, в среднем обходится более чем в 330 тыс. долл., если учесть реагирование, штрафы, устранение последствий и ущерб репутации — это напоминание о том, что фрагментированный контроль повышает бизнес-риски, а не только операционные затраты.
Золотая середина — модель ядра и экосистемы
Отрасль не возвращается в прошлое — она поднимается на новый уровень абстракции. Представьте себе ядро, которое служит основой платформы, и периферию, которая внедряет инновации на его основе.
Ядром является хранилище или озеро-хранилище, где хранятся данные и закреплены политики. Открытые форматы таблиц превращают это ядро в общую инфраструктуру. Благодаря этому движки могут считывать одни и те же таблицы, а команды могут переключаться между уровнями обработки без перезаписи хранилища. Практичное ядро обеспечивает базовый контроль. Сюда входит шифрование данных при передаче и хранении, отказоустойчивость за счет проверенных резервных копий, маскирование или очистка для снижения риска утечки при анализе и обмене данными, а также процессы удаления данных, когда этого требуют политики или нормативные требования.
Специализированные инструменты процветают на периферии. Наблюдаемость, семантические уровни, исследования в блокнотах или доменные службы машинного обучения могут быстро развиваться, если они соблюдают открытые интерфейсы и управление, принятое для ядра. В этом заключается разница между параллельными изолированными системами и экосистемой.
Почему это нужно делать сейчас?
Открытые стандарты созрели, и поставщики приводят свои продукты в соответствие с ними. В 2024 г. Snowflake анонсировала каталог Polaris для Iceberg и сделала акцент на интероперабельности между поставщиками облачных услуг. Отрасль расценила это как шаг к созданию каталогов, независимых от поставщиков, вместо возделывания огороженного сада. Databricks также поддержала интероперабельномть, внеся вклад в Delta Lake как открытый стандарт и расширив поддержку других форматов.
Компромиссный вариант принимает истину, которую признают обе стороны — команды хотят иметь выбор без фрагментации. Практический подход заключается в том, чтобы хранить данные централизованно на открытых платформах, а затем подключать лучшие в своем классе инструменты, которые взаимодействуют с этими платформами, а не обходят их.
Будущее — рост популярности композитных платформ
Это приводит к следующему логическому шагу в развитии отрасли — композитным платформам. Это ключевой прогноз на будущее архитектуры данных. Он позволяет компании начать с мощного интегрированного ядра от крупного поставщика. Ядро обеспечивает основу, включая озеро-хранилище данных, управление, безопасность и базовые инструменты. На этой основе компания создает свой идеальный стек, добавляя инструменты, которые бесшовно интегрируются.
Композитная платформа похожа на строительство из элементов лего. Когда появляются новые, более совершенные «кирпичики», команды могут легко заменять старые детали и вставлять новые, не нарушая остальную часть модели.
Инженеры по данным могут меньше сосредотачиваться на создании настраиваемых интеграций и уделять больше времени созданию продуктов данных поверх ядра. Специалисты в области науки о данных получают более унифицированный опыт и доступ к данным с помощью специализированных инструментов. Руководители в области данных также внедряют новые инструменты для решения конкретных бизнес-задач.
Отраслевые эксперты считают, что весьма вероятной особенностью этого сдвига является модель магазина приложений для данных. Если платформы смогут предоставлять стабильные API и каталоги, третьи стороны смогут распространять расширения, доступные в ядре. Это видно на примере Native App Framework и Marketplace от Snowflake, а также Marketplace от Databricks, которые предлагают первоклассные приложения.
От «все в одном» к «все что нужно»
Универсальная платформа данных в ее старой, монолитной форме умерла. Ее исчезновение уступило место разрозненному современному стеку данных, который поставил во главу угла гибкость, но привнес дорогостоящую сложность. Сейчас рынок корректируется.
Идея платформы, основанной на открытых форматах, встраиваемых движках и каталогах, которые приветствуют экосистему вокруг себя, возвращается. Освоение композитного подхода — это новый конкурентный фактор. Наиболее успешными будут те компании, которые научатся внедрять инновации, не переписывая основы, и сохранять контроль, не замедляя открытия.































