Опрошенные порталом BigDATAwire эксперты делятся своими прогнозами на 2025 г. в области аналитики данных.

Мир видел всевозможные тренды аналитики: озера данных, хранилища данных, аналитику in-memory и встроенную аналитику. Но в 2025 г. стандартом аналитики станет озеро-хранилище данных (lakehouse), считает Эммануэль Даррас, генеральный директор и соучредитель компании Kestra, разработчика Open Source-платформы оркестровки.

«В 2025-м более половины всех аналитических рабочих нагрузок, как ожидается, будут выполняться на архитектурах lakehouse, что обусловлено экономией средств и гибкостью, которую они обеспечивают, — говорит он. — В настоящее время компании переходят от облачных хранилищ данных к озерам-хранилищам не только для экономии средств, но и для упрощения схем доступа к данным и снижения необходимости в дублировании систем хранения данных. Крупные организации сообщают об экономии более 50%, что является большим выигрышем для тех, кто имеет значительные потребности в обработке данных».

Одной из главных движущих сил развития озер-хранилищ данных является стандартизация открытых форматов данных. По прогнозам Адама Беллемара, главного технолога группы технологической стратегии компании Confluent, эта тенденция будет развиваться и в 2025 г.

«В следующем году мы станем свидетелями повсеместной стандартизации открытых форматов данных, таких как Apache Iceberg, Delta Lake и Apache Hudi, — говорит он. — Это будет обусловлено ростом спроса на совместимость, когда предприятия будут стремиться к беспрепятственному объединению данных от различных платформ, партнеров и поставщиков. Поскольку предприятия ставят во главу угла доступ к своевременным и качественным данным, открытые форматы данных больше не будут опциональными, а станут обязательным условием успеха бизнеса. Те, кто не примет эти открытые стандарты, рискуют потерять конкурентное преимущество, а те, кто примет их, смогут предоставлять высококачественные предложения и кросс-платформенные инсайты реального времени».

Двумя крупнейшими сторонниками озер-хранилищ данных являются Snowflake и Databricks. Но в 2025 г. люди устанут от войны между ними и обратятся к федеративным ИТ для создания развитой архитектуры данных, считает Эндрю Мэдсон, технический евангелист компании Dremio и профессор данных и аналитики в университетах Южного Нью-Гэмпшира и Гранд-Каньона.

«Центральные ИТ-команды продолжат передачу своей ответственности бизнес-подразделениям, создавая все более федеративные операционные модели, — говорит он. — В то же время в монолитные архитектуры крупных производителей, таких как Snowflake и Databricks, будут интегрированы дополнительные инструменты, направленные на повышение экономичности и производительности, что позволит создавать гибридные экосистемы, в которых будет соблюден баланс между инновациями и практичностью».

Моделирование данных долгие годы оставалось в относительной безвестности. В 2025 г. для этой практики настанет звездный час, считает Ади Полак, директор Confluent по продвижению и инжинирингу опыта разработчиков.

«Моделирование данных долгое время было прерогативой DBA (администраторов баз данных), но с ростом внедрения открытых форматов таблиц, таких как Apache Iceberg, моделирование данных становится навыком, которым должны овладеть все больше инженеров, — говорит он. — При разработке приложений перед инженерами все чаще ставится задача создания многократно используемых продуктов данных, поддерживающих как рабочие нагрузки реального времени, так и пакетные, а также предвосхищающих последующие модели потребления. Чтобы эффективно создавать такие продукты данных, инженеры должны понимать, как будут использоваться данные, и уже на ранних этапах разрабатывать правильную структуру или модель, подходящую для потребления. Именно поэтому моделирование данных станет важнейшим навыком, которым инженеры должны овладеть в наступающем году».

Есть одна тема, которую будет невозможно обойти стороной в 2025 г.: искусственный интеллект. Влияние ИИ будет ощущаться повсюду, в том числе и в стеке аналитики данных, считает Кристиан Бакнер, старший вице-президент Altair по аналитике и IoT.

«Сегодня многие бизнес-руководители испытывают трудности, пытаясь понять, какие вопросы задавать своим данным и где искать ответы, — говорит он. — ИИ-агенты меняют эту ситуацию, автоматически предоставляя инсайты и рекомендации без необходимости задавать вопросы. Такой уровень автоматизации будет иметь решающее значение для того, чтобы помочь организациям получить более глубокое понимание и раскрыть связи в своих данных и дать им возможность принимать более стратегические решения для повышения эффективности бизнеса. Для компаний важно установить защитные ограждения для контроля предложений, основанных на ИИ, и сохранить доверие к результатам».

Обычно когда вы говорили «аналитика», это вызывало в воображении образ человека, запускающего настольный BI-инструмент для работы со срезом данных из хранилища. Но времена изменились. По словам генерального директора Sisense Ариэля Каца, в 2025 г. традиционная бизнес-аналитика перестанет существовать, и на смену ей придет аналитика, основанная на API и с интегрированным в каждое приложение генеративным ИИ (GenAI).

«В 2025 г. традиционные BI-инструменты станут неактуальными, поскольку архитектуры API-first и GenAI без проблем встроят аналитику реального времени в каждое приложение, — говорит он. — Данные будут поступать непосредственно в CRM, платформы для повышения продуктивности и клиентские инструменты, что позволит сотрудникам всех уровней мгновенно принимать решения, основанные на данных, без необходимости в технических знаниях. Компании, которые примут этот переход, смогут добиться беспрецедентной производительности и повысить уровень клиентского опыта, оставив позади статичные приборные панели и изолированные системы».

В 2025 г. движение больших данных откроет новую главу, приветствуя родственника больших данных — малые данные, — прогнозирует Франсуа Адженстат, директор по продуктам компании Amplitude.

«В последние несколько лет наблюдался рост объемов данных, но в 2025-м акцент будет перенесен с „больших данных“ на „малые данные“, — говорит он. — Мы уже наблюдаем этот сдвиг в сознании, когда большие языковые модели (LLM) уступают место малым языковым моделям (SLM). Организации осознают, что для решения проблемы или реализации инициативы им не нужно использовать все свои данные — им нужно использовать правильные данные. Чрезмерное обилие данных, часто называемое „болотом данных“, затрудняет извлечение значимых инсайтов. Сосредоточившись на более целевых и качественных данных — или на „пруду данных“, — организации смогут обеспечить доверие к данным и их точность. Этот переход к меньшим объемам актуальных данных поможет сократить сроки анализа, привлечь больше людей к работе с данными и повысить рентабельность инвестиций в данные».

Иметь высококачественные данные всегда было круто. Но в 2025 г. наличие высококачественных данных станет императивом бизнеса, считает Раджан Гоял, генеральный директор и соучредитель DataPelago.

«Мы видим все больше сообщений о том, что поставщики LLM борются с замедлением работы моделей, а закон масштабирования ИИ все чаще ставится под сомнение, — говорит он. — По мере продолжения этой тенденции в следующем году станет общепризнанным, что ключ к разработке, обучению и тонкой настройке более эффективных моделей ИИ — это не больше данных, а более качественные данные. В частности, ключевую роль будут играть высококачественные контекстные данные, соответствующие предполагаемому сценарию использования модели. Эта тенденция не только затронет разработчиков моделей, но и приведет к тому, что конечные клиенты, обладающие большей частью этих данных, будут вынуждены модернизировать свои архитектуры управления данными с учетом современных требований ИИ, чтобы они могли эффективно настраивать модели и подпитывать рабочие нагрузки RAG (генерация с расширенной выборкой)».

Изолированные хранилища данных похожи на грибы: они появляются естественным образом без какого-либо участия человека. Но в 2025 г. компаниям, желающим преуспеть, придется бороться с ростом информационных «бункеров», считает Молли Пресли, вице-президент по глобальному маркетингу компании Hammerspace.

«В 2025 г. разрушение информационных „бункеров“ станет важнейшей архитектурной задачей для инженеров по данным и ИИ-архитекторов, — говорит он. — Способность агрегировать и объединять разрозненные наборы данных будет иметь большое значение для реализации в организациях инициатив в области передовой аналитики, ИИ и машинного обучения. Поскольку количество и разнообразие источников данных продолжают расти, преодоление этих „бункеров“ будет иметь решающее значение для обеспечения целостного понимания и принятия решений, которые требуются современным системам ИИ».

Иногда кажется, что управление доступом пользователей к данным происходит одновременно везде и всюду. По прогнозам генерального директора Arcitecta Джейсона Лори, в 2025 г. вместо того, чтобы бороться с проблемами увеличения числа работников и разрастания данных, команды научатся более эффективно использовать такие инструменты, как потоковые данные, для повышения своей продуктивности.

«Рост удаленной работы и географически распределенных команд изменил методы работы бизнеса, — говорит он. — Потоковая передача данных в режиме реального времени позволяет организациям записывать события и обмениваться ими в режиме прямой трансляции по всему миру, давая возможность сотрудникам совместно работать с непрерывными потоками данных без необходимости физического присутствия. В 2025 г. эта тенденция, вероятно, усилится, поскольку все больше компаний будут внедрять инструменты, способствующие бесперебойному вещанию и распространению данных. Обеспечив совместную работу распределенного персонала в режиме реального времени, компании смогут сократить командировочные расходы, повысить эффективность и принимать более быстрые и обоснованные решения. Глобальный охват технологии потоковой передачи данных будет расширяться, что позволит организациям использовать более широкий кадровый резерв и создавать более динамичные и гибкие операционные структуры».