Опрошенные порталом BigDATAwire эксперты делятся своими прогнозами на 2025 г. в области аналитики данных.
Мир видел всевозможные тренды аналитики: озера данных, хранилища данных, аналитику in-memory и встроенную аналитику. Но в 2025 г. стандартом аналитики станет озеро-хранилище данных (lakehouse), считает Эммануэль Даррас, генеральный директор и соучредитель компании Kestra, разработчика Open Source-платформы оркестровки.
«В
Одной из главных движущих сил развития озер-хранилищ данных является стандартизация открытых форматов данных. По прогнозам Адама Беллемара, главного технолога группы технологической стратегии компании Confluent, эта тенденция будет развиваться и в 2025 г.
«В следующем году мы станем свидетелями повсеместной стандартизации открытых форматов данных, таких как Apache Iceberg, Delta Lake и Apache Hudi, — говорит он. — Это будет обусловлено ростом спроса на совместимость, когда предприятия будут стремиться к беспрепятственному объединению данных от различных платформ, партнеров и поставщиков. Поскольку предприятия ставят во главу угла доступ к своевременным и качественным данным, открытые форматы данных больше не будут опциональными, а станут обязательным условием успеха бизнеса. Те, кто не примет эти открытые стандарты, рискуют потерять конкурентное преимущество, а те, кто примет их, смогут предоставлять высококачественные предложения и кросс-платформенные инсайты реального времени».
Двумя крупнейшими сторонниками озер-хранилищ данных являются Snowflake и Databricks. Но в 2025 г. люди устанут от войны между ними и обратятся к федеративным ИТ для создания развитой архитектуры данных, считает Эндрю Мэдсон, технический евангелист компании Dremio и профессор данных и аналитики в университетах Южного Нью-Гэмпшира и Гранд-Каньона.
«Центральные ИТ-команды продолжат передачу своей ответственности бизнес-подразделениям, создавая все более федеративные операционные модели, — говорит он. — В то же время в монолитные архитектуры крупных производителей, таких как Snowflake и Databricks, будут интегрированы дополнительные инструменты, направленные на повышение экономичности и производительности, что позволит создавать гибридные экосистемы, в которых будет соблюден баланс между инновациями и практичностью».
Моделирование данных долгие годы оставалось в относительной безвестности. В 2025 г. для этой практики настанет звездный час, считает Ади Полак, директор Confluent по продвижению и инжинирингу опыта разработчиков.
«Моделирование данных долгое время было прерогативой DBA (администраторов баз данных), но с ростом внедрения открытых форматов таблиц, таких как Apache Iceberg, моделирование данных становится навыком, которым должны овладеть все больше инженеров, — говорит он. — При разработке приложений перед инженерами все чаще ставится задача создания многократно используемых продуктов данных, поддерживающих как рабочие нагрузки реального времени, так и пакетные, а также предвосхищающих последующие модели потребления. Чтобы эффективно создавать такие продукты данных, инженеры должны понимать, как будут использоваться данные, и уже на ранних этапах разрабатывать правильную структуру или модель, подходящую для потребления. Именно поэтому моделирование данных станет важнейшим навыком, которым инженеры должны овладеть в наступающем году».
Есть одна тема, которую будет невозможно обойти стороной в 2025 г.: искусственный интеллект. Влияние ИИ будет ощущаться повсюду, в том числе и в стеке аналитики данных, считает Кристиан Бакнер, старший вице-президент Altair по аналитике и IoT.
«Сегодня многие бизнес-руководители испытывают трудности, пытаясь понять, какие вопросы задавать своим данным и где искать ответы, — говорит он. — ИИ-агенты меняют эту ситуацию, автоматически предоставляя инсайты и рекомендации без необходимости задавать вопросы. Такой уровень автоматизации будет иметь решающее значение для того, чтобы помочь организациям получить более глубокое понимание и раскрыть связи в своих данных и дать им возможность принимать более стратегические решения для повышения эффективности бизнеса. Для компаний важно установить защитные ограждения для контроля предложений, основанных на ИИ, и сохранить доверие к результатам».
Обычно когда вы говорили «аналитика», это вызывало в воображении образ человека, запускающего настольный BI-инструмент для работы со срезом данных из хранилища. Но времена изменились. По словам генерального директора Sisense Ариэля Каца, в 2025 г. традиционная бизнес-аналитика перестанет существовать, и на смену ей придет аналитика, основанная на API и с интегрированным в каждое приложение генеративным ИИ (GenAI).
«В 2025 г. традиционные BI-инструменты станут неактуальными, поскольку архитектуры API-first и GenAI без проблем встроят аналитику реального времени в каждое приложение, — говорит он. — Данные будут поступать непосредственно в CRM, платформы для повышения продуктивности и клиентские инструменты, что позволит сотрудникам всех уровней мгновенно принимать решения, основанные на данных, без необходимости в технических знаниях. Компании, которые примут этот переход, смогут добиться беспрецедентной производительности и повысить уровень клиентского опыта, оставив позади статичные приборные панели и изолированные системы».
В 2025 г. движение больших данных откроет новую главу, приветствуя родственника больших данных — малые данные, — прогнозирует Франсуа Адженстат, директор по продуктам компании Amplitude.
«В последние несколько лет наблюдался рост объемов данных, но в
Иметь высококачественные данные всегда было круто. Но в 2025 г. наличие высококачественных данных станет императивом бизнеса, считает Раджан Гоял, генеральный директор и соучредитель DataPelago.
«Мы видим все больше сообщений о том, что поставщики LLM борются с замедлением работы моделей, а закон масштабирования ИИ все чаще ставится под сомнение, — говорит он. — По мере продолжения этой тенденции в следующем году станет общепризнанным, что ключ к разработке, обучению и тонкой настройке более эффективных моделей ИИ — это не больше данных, а более качественные данные. В частности, ключевую роль будут играть высококачественные контекстные данные, соответствующие предполагаемому сценарию использования модели. Эта тенденция не только затронет разработчиков моделей, но и приведет к тому, что конечные клиенты, обладающие большей частью этих данных, будут вынуждены модернизировать свои архитектуры управления данными с учетом современных требований ИИ, чтобы они могли эффективно настраивать модели и подпитывать рабочие нагрузки RAG (генерация с расширенной выборкой)».
Изолированные хранилища данных похожи на грибы: они появляются естественным образом без какого-либо участия человека. Но в 2025 г. компаниям, желающим преуспеть, придется бороться с ростом информационных «бункеров», считает Молли Пресли, вице-президент по глобальному маркетингу компании Hammerspace.
«В 2025 г. разрушение информационных „бункеров“ станет важнейшей архитектурной задачей для инженеров по данным и ИИ-архитекторов, — говорит он. — Способность агрегировать и объединять разрозненные наборы данных будет иметь большое значение для реализации в организациях инициатив в области передовой аналитики, ИИ и машинного обучения. Поскольку количество и разнообразие источников данных продолжают расти, преодоление этих „бункеров“ будет иметь решающее значение для обеспечения целостного понимания и принятия решений, которые требуются современным системам ИИ».
Иногда кажется, что управление доступом пользователей к данным происходит одновременно везде и всюду. По прогнозам генерального директора Arcitecta Джейсона Лори, в 2025 г. вместо того, чтобы бороться с проблемами увеличения числа работников и разрастания данных, команды научатся более эффективно использовать такие инструменты, как потоковые данные, для повышения своей продуктивности.
«Рост удаленной работы и географически распределенных команд изменил методы работы бизнеса, — говорит он. — Потоковая передача данных в режиме реального времени позволяет организациям записывать события и обмениваться ими в режиме прямой трансляции по всему миру, давая возможность сотрудникам совместно работать с непрерывными потоками данных без необходимости физического присутствия. В 2025 г. эта тенденция, вероятно, усилится, поскольку все больше компаний будут внедрять инструменты, способствующие бесперебойному вещанию и распространению данных. Обеспечив совместную работу распределенного персонала в режиме реального времени, компании смогут сократить командировочные расходы, повысить эффективность и принимать более быстрые и обоснованные решения. Глобальный охват технологии потоковой передачи данных будет расширяться, что позволит организациям использовать более широкий кадровый резерв и создавать более динамичные и гибкие операционные структуры».