Цифровизация занимает ведущее место в постпандемийных расходах на ИТ с упором на привлечение клиентов в режиме реального времени — и это непростая задача, пишет на портале The New Stack Маниш Девган, директор по продуктам компании Hazelcast.

По данным IDC, к 2024 г. на цифровизацию будет выделяться 55% расходов на ИТ. При этом большинство предприятий впервые реализуют стратегии цифровой трансформации в масштабах всей организации. Однако, как полагает IDC, многим будет трудно ориентироваться в мире цифровых технологий, поскольку они еще не совсем понимают их значение для своего бизнеса.

Победителями станут те, кого IDC называет «приверженцами цифрового подхода» — они внедряют инновации в области привлечения клиентов, беря за основу технологии управления данными и аналитики.

Это означает переход к такому типу взаимодействия с клиентами, который выходит за рамки простого присутствия в Интернете. Речь идет о взаимодействии в режиме реального времени, например, индивидуализации предложения в процессе покупки, исключении мошенничества во время транзакции, замене детали еще до поломки машины или поддержке клиента во время банковского обслуживания.

Достижение такого уровня вовлеченности требует 360-градусного представления о клиенте и персонализации в режиме реального времени — и в этом заключается сложность, поскольку для этого необходим точный и действенный профиль клиента. Такие профили строятся с использованием комбинации потоковых данных о событиях — кликов на сайте, межмашинных коммуникаций, транзакций и т. д., генерируемых за миллисекунды, — и статических, исторических данных для контекстуального понимания клиента. Для создания такой целостной картины требуется система потоковой аналитики, но хотя компании могут верить в силу действий и принятия решений в режиме реального времени, многие из них слишком перегружены данными о клиентах.

Согласно одному из отчетов Forrester, менее трети руководителей могут получать необходимые им инсайты из своих данных. В исследовании, проведенном Forrester совместно с CSG Systems, только половина (51%) респондентов заявили, что они могут предложить персонализированное или адаптированное взаимодействие, и лишь 46% могут организовывать действия в режиме реального времени.

Трехуровневая задача

Аналитики McKinsey подтверждают эту точку зрения и объясняют, почему так происходит: с подключенных устройств поступает, обрабатывается, запрашивается и анализируется лишь малая часть данных. То есть проблемы возникают не из-за данных, а из-за способа их обработки.

У этого есть три причины.

Первая — это все более децентрализованный характер генерации данных. Данные создаются приложениями, устройствами, серверами и веб-сайтами, а операции с клиентами происходят во всех уголках цифрового предприятия. Для тех, кто пытается понять и принять меры в режиме реального времени, используя потоковую аналитику, это создает стратегическую архитектурную проблему: где и как обрабатывать данные и проводить аналитику. Должны ли они обрабатывать данные там, где они создаются, или передавать их в централизованное хранилище? В первом случае обработка может быть ограничена, но во втором данные почти наверняка должны совершать кругосветные путешествия по сети, что означает задержку анализа и, что не менее важно, действий.

Вторая причина связана с преобладающим подходом к освоению потоковых данных. Согласно отчету Swim «State of Streaming Data», более трети организаций используют потоковые приложения и среды для конвейеров данных, интеграции данных и потоковой обработки. Проблема в том, что 70% создают собственные среды и инфраструктуру потоковой обработки данных, что заставляет их решать вопросы хранения данных, оптимизации платформы и системной интеграции. Неправильное решение этих вопросов приводит к неэффективности и накладным расходам на производительность, что затрудняет обработку и анализ данных.

Наконец, существуют устаревшие архитектуры хранения и анализа данных. Базы данных и хранилища данных, которые хранят статические, исторические данные о клиентах, не были спроектированы или оптимизированы для получения, ввода, обработки или анализа быстро меняющихся потоков событийных данных. Они должны быть интегрированы с потоковыми системами с сопутствующим риском неэффективности производительности. Для базы данных также характерны накладные расходы — необходимость инвестировать в дополнительное оборудование для повышения производительности.

Какой должна быть архитектура

Что нужно сделать, чтобы увеличить скорость получения, обработки, запроса и анализа данных? Требуется архитектура данных реального времени, основанная на шести критически важных возможностях:

  • Брокер событий и уровень обмена сообщениями. Этот уровень предоставляет средства для приема и перемещения данных из различных источников к потребителям, обеспечивая возможность постановки сообщений в очередь, выступая в качестве брокеров сообщений и поддерживая различные схемы взаимодействия, такие как публикация-подписка.
  • Уровень интеграции данных в реальном времени, предоставляющий такие возможности, как конвейеры данных и потоковый ETL — сбор данных из источников (извлечение), конверсия в нужный формат (преобразование) и, наконец, размещение в хранилище данных (загрузка).
  • Слой быстрого управления данными для хранения и быстрого доступа к данным. Этот уровень определяется носителем и форматом хранения данных, которые считаются «правильными» для ваших SLA-потребностей. Ключевыми компонентами этого уровня являются многоуровневые модели хранения данных, ориентированные на память, и доступ на основе SQL.
  • Обработка событий и потоков, поддерживающая своевременные действия и взаимодействие на основе последних данных о событиях. Расширенные возможности включают анализ путем группировки информации о входящих событиях в постоянно меняющихся временных окнах, возможность объединения потоков данных и данных, хранящихся на уровне управления данными, и масштабирование для обработки миллионов событий в секунду.
  • Аналитика в реальном времени обслуживает аналитические рабочие нагрузки, которые могут выдавать инсайты для последующих операционных приложений. Ценность обеспечивается за счет ускорения унаследованных пакетных заданий и ускорения извлечения инсайтов, в частности, за счет использования открытых форматов, таких как Parquet, и лучших вычислительных движков.
  • Машинное обучение в режиме реального времени. Мы знаем, что MО меняет представление о том, как компании могут подбирать контент и персонализированные услуги благодаря адаптации моделей к предпочтениям пользователей, которые часто меняются в режиме реального времени. Исторически сложилось так, что MО проводилось на основе пакетных данных, когда специалисты по исследованию данных строили и тестировали модели, используя исторические данные в автономном режиме. Однако работа в реальном времени означает снабжение модели живыми данными для ее непрерывного совершенствования. Основные возможности для реализации MО в реальном времени включают онлайн-прогнозирование и непрерывное обучение, которые предполагают обновление моделей в реальном времени и учет новых входящих данных для точного прогнозирования.
  • Приложения — ПО и сервисы, оптимизированные для архитектуры реального времени и потоковой аналитики. Примерами могут служить торговые корзины, которые дают рекомендации на основе кликов и прошлого поведения покупателя, или системы обнаружения мошенничества, которые определяют нормальное использование кредитной карты человека и могут уведомлять его о потенциальных мошеннических операциях с помощью предупреждений.

Важность реализации

Эти элементы уже существуют в информационных архитектурах. При создании приложений реального времени важно то, как они реализованы. Они должны быть интегрированы. Это означает, что архитектура должна обеспечивать потоковую передачу, запрос и анализ этих событий, а также запрос и анализ хранящихся данных.

Кроме того, эта архитектура должна решать стратегическую задачу размещения вычислительных ресурсов. В модели распределенных вычислений вашим союзником является память, поэтому целесообразно использовать имеющиеся в вашем распоряжении ресурсы путем кластеризации пулов памяти и других уровней хранения с низкой задержкой на серверах, доступных локально. Это означает, что данным не нужно возвращаться в дата-центр, а также нет необходимости в периферийных серверах. Такая архитектура данных реального времени обеспечит потоковую аналитику с низкой задержкой, которая использует доступ к быстрым контекстным данным и взаимодействие с клиентами в режиме реального времени.

Заключение

Помимо простого присутствия в Интернете, задачей организаций является взаимодействие с клиентами в режиме реального времени. Стать «приверженцем цифровых технологий» означает работать на основе 360-градусного обзора этих клиентов — того, что можно собрать только с помощью потоковой аналитики, основанной на интегрированной архитектуре данных реального времени.