Быстрый рост генеративного искусственного интеллекта (GenAI) и переход от пакетной к потоковой обработке данных — вот что будет занимать инженеров по данным в 2024 г., пишут на портале The New Stack Эндрю Селлерс, глава группы технологической стратегии Confluent, и Константин Кнауф, член комитета по управлению проектом Apache Flink и менеджер по продуктам группы Stream Processing & Analytics компании Confluent.
Предсказать будущее всегда непросто, но в
Вот пять прогнозов того, как будет развиваться сфера инженерии данных в 2024 г.
1. GenAI станет общедоступным и будет внедряться во множество приложений
Кажется немыслимым, что такая мощная технология, как GenAI, станет общедоступной так быстро, но в 2024 г. это начнет происходить. Большие языковые (LLM) и другие базовые модели уже стало проще обучать и настраивать. В
Год назад было доступно лишь несколько LLM, причем они были очень большими и дорогостоящими в обучении и эксплуатации. Сейчас на выбор предлагается множество LLM, в том числе более компактные и предназначенные для решения конкретных задач, например для разработки ПО, а также Open Source-варианты, которые можно легко адаптировать.
Чтобы быть полезными для бизнеса, приложения на базе LLM должны быть хорошо контекстуализированы с помощью релевантных и точных внутренних данных. Cпециализация облегчает компаниям обучение LLM на своих внутренних данных и их запуск в собственных защищенных облачных средах, что часто имеет решающее значение для удовлетворения потребностей в безопасности.
В результате в 2024 г. мы увидим, как все больше компаний будут внедрять возможности GenAI в создаваемые ими внутренние и внешние приложения. Это повысит производительность и обеспечит более богатый клиентский опыт.
2. Управление данными сдвинется на ранние этапы, поскольку компании будут собирать больше данных для GenAI
Поскольку компании собирают все бóльшие объемы данных для своих инициатив в области ИИ, они должны добавить слой управления, чтобы сделать эти данные полезными. Гораздо проще и эффективнее включать управление, когда данные только производятся, и в следующем году мы увидим, как управление данными «сдвинется влево», чтобы удовлетворить эту потребность.
Инвестиции в управление очень важны, поскольку они обеспечивают надежность данных и возможность их быстрого предоставления для использования в приложениях. Такое управление включает в себя регистрацию происхождения данных, обеспечение их точности, добавление метаданных для облегчения работы с ними и включение их в защищенный каталог, чтобы другие знали, что они доступны.
Хранение неструктурированных и неконтролируемых данных в озере данных упрощает сохранение всего, но использование этих данных становится все более дорогостоящим. Компании должны работать умнее и начинать обработку данных максимально рано.
Это дает несколько преимуществ. Скорейшее включение управления означает, что данные будут доступны быстрее, а значит, разработчики смогут работать с более оперативными данными. Это также позволяет организации отказаться от данных, не представляющих ценности в будущем, что снижает затраты на хранение и ответственность за них. В 2024 г. все больше компаний будут осознавать эти преимущества и применять управление данными на ранних этапах их жизненного цикла.
3. Apache Flink станет более популярным не только среди инженеров-программистов, но и закрепится в качестве фактического стандарта потоковой обработки данных
Исторически сложилось так, что внедрение потоковой обработки сдерживалось из-за ее сложности. Потоковая обработка должна стать проще, чтобы люди могли использовать ее и получать от нее максимальную выгоду.
В 2023 г. на рынке появилось несколько предложений Flink as a Service (FaaS), и в следующем году мы увидим, что все больше клиентов будут тяготеть к этим сервисам как к способу снижения сложности потоковой обработки. Общий инструментарий и опыт разработчиков преобразятся, а разработка приложений и конвейеров выиграет от более тесной интеграции в жизненный цикл разработки ПО.
Экосистема пользователей Flink будет расширяться не только за счет разработчиков ПО, поскольку команды по работе с данными и бизнес-операции осознают ценность перемещения рабочих нагрузок вверх по потоку. Мы видим, что все больше пользователей хотят запрашивать свои потоки в режиме реального времени. С появлением нового драйвера Java Database Connectivity (JDBC) мы увидим еще больше новых систем и пользователей, впервые подключающихся к Flink.
4. В Apache Flink 2.0 будут реализованы принципы нативной облачности и устранены границы между пакетной и потоковой обработкой
Flink 2.0, ожидаемый в конце года, является важным направлением для сообщества Flink. В 2024 г. Flink продолжит модернизацию и станет более легковесным, внедряя принципы нативных облачных технологий, такие как дезагрегированные слои персистентности. Мы также можем ожидать, что границы между пакетной и потоковой обработкой исчезнут, поскольку системы будут автоматически выбирать оптимальный режим.
Кроме того, интеграция и синергия между Flink и Apache Kafka будет продолжать укрепляться. Усовершенствования распределенных транзакций позволят использовать их в более критически важных задачах.
Благодаря бессерверной технологии, ставшей новым эталоном для сервисов потоковой обработки, разработчики смогут сосредоточиться и уделять больше времени созданию приложений для потоковой обработки в реальном времени, а не управлению Flink.
5. Данные как продукт станут мейнстримом по мере развития инструментов управления
До недавнего времени только крупные компании обладали опытом и ресурсами для создания многократно используемых активов данных, которые можно было бы легко использовать в различных командах и приложениях. Благодаря развитию инструментов управления, необходимых для создания таких активов, в 2024 г. все больше компаний смогут создавать многократно используемые продукты данных, что значительно повысит эффективность и инновационность данных.
Доступ к одним и тем же данным для создания сервиса или приложения может быть полезен нескольким командам. Однако эти данные должны быть представлены таким образом, чтобы они были безопасными, хорошо контекстуализированными и понятными для пользователей, которые не участвовали в их создании. По мере удаления данных от их первоначального источника определить и предоставить эту контекстуальную информацию становится все труднее, что приводит к увеличению затрат. Начать процесс управления данными с источника — это не только менее затратно, но и лучший способ понять источник данных и то, как они схематизированы.
Новые возможности управления данными, предварительно встроенные в такие продукты, как облачные хранилища данных, базы данных и другие сервисы инфраструктуры данных, могут помочь удовлетворить эти потребности. Это означает, что разработчикам больше не нужно будет вручную создавать инфраструктуру для создания и обмена многократно используемых продуктов данных.
В результате многоразовые продукты данных перестанут быть уделом компаний с большими командами инженеров по данным. В 2024 г., когда все больше компаний будут создавать многократно используемые продукты данных, разработчики смогут повысить ценность своих данных и уделять больше времени созданию инновационных приложений и сервисов для работы с ними.
Раскрытие ценности данных
Сегодня данные являются ключевой движущей силой инноваций в бизнесе, и представленные выше прогнозы могут быть хорошим индикатором того, на чем сосредоточат свою энергию многие инженеры по данным в 2024 г. GenAI — самый главный новичок, но потоковая передача и обработка данных остаются не менее важными, поскольку компании пытаются извлечь еще больше пользы из своих данных. В этом быстро меняющемся ландшафте инженеры по данным станут главными архитекторами перемен, а их опыт и творческий подход будут определять инфраструктуру данных завтрашнего дня.