После сложного 2020 г. важность аналитики и сильной стратегии в области корпоративных данных становится еще более ясной. Уильям Макнайт, президент McKnight Consulting Group, обсуждает на портале InformationWeek современные тенденции в этой сфере.

Несмотря на трудности в прошлом году масштабы использования аналитики и корпоративных данных и их важность для корпоративной стратегии и операций росли. Максимальный охват и использование как можно большего количества корпоративных данных не просто важны, это является императивом.

Данный императив подпитывают несколько новых подходов, технологий и платформ. Сейчас действительно подходящее время для работы с корпоративными данными и аналитикой — если вы хотите прогресса. В 2021 г. корпоративная аналитика станет захватывающим путешествием. Вот тенденции, на которые следует обратить внимание.

Облачные вычисления приводят к пересмотру технологий

Расходы на корпоративные технологии возрастут, и большинство из них пойдет на данные и аналитику: управление данными, конфиденциальность данных, проекты с интенсивным использованием данных и т. д. Возможности облачных вычислений позволяют внедрять соответствующие решения как никогда быстро. Эту динамику стимулируют инновации гиперконвергентных поставщиков. Например, AWS недавно анонсировала тома EBSio2 Block Express. Это SAN для облака. Она также анонсировали тома Gp3, которые позволяют устанавливать SLA для IOPS. Еще одно важное объявление AWS — автоматическое многоуровневое хранение и репликация, которые автоматически перемещают данные на более холодные уровни хранения.

Рынок традиционных СХД растет очень скромно, что вынуждает крутиться его традиционных игроков. Онпремис-репатриация имеет место, но происходит довольно редко.

COVID-19 лишь усугубил необходимость того, чтобы компании были целенаправленными и эффективными и, следовательно, основанными на облачных технологиях.

Искусственный интеллект и машинное обучение

Организации уделяют все больше внимания искусственному интеллекту и машинному обучению (ИИ/МО). Ведущие компании принимают эту революцию, которая следует за широко признанной информационной революцией, и уже вовлекаются в процессы полной реорганизации бизнеса с помощью ИИ/МО. Осваивая десятки производственных моделей, они выходят за рамки первоначальных сценариев использования ИИ/МО.

Если посмотреть на корпоративные цели и дорожные карты, редко обнаружится деятельность, которая не может быть реорганизована с помощью ИИ/МО. Первыми в фокус внимания попадают автоматизация и клиентский опыт, но ведущие организации уже расширяют зоны охвата ИИ/МО на защиту инвестиций, прогнозную аналитику и цепочки поставок. В 2021 г. за ними последуют другие организации, расширится и круг приложений.

Коллаборативное МО начнет свой многолетний путь в качестве предпочтительного МО-подхода. Этот подход сочетает в себе человеческий опыт и МО, хорошо подходит для нынешней ранней фазы развития МО и вполне устраивает компании, которые станут более зависимыми от МО в будущем. Коллаборативное МО использует МО в качестве дополнения к человеческой мысли при принятии решений на основе данных. Такой подход будет наиболее обоснованным для использования в инициативах по взаимодействию с клиентами в 2021 г.

Развертывание моделей МО займет центральное место в организациях в 2021 г. Оно станет главной активностью специалистов в области данных, а модели будут становиться все более изощренными. Тем не менее, большинство организаций будут бороться с (или можно сказать — без) MLOps.

MLOps применяет принципы DevOps к доставке МО. Разработка моделей может извлечь пользу из итеративного подхода: область может быть лучше изучена, а модели улучшены. Процесс MLOps требует высокоавтоматизированного конвейера инструментов, репозиториев для хранения и отслеживания моделей, кода, отслеживания потоков данных, а также целевой среды, которая может быть быстро развернута. МО предполагает большое количество проб и ошибок и, следовательно, выполнение соответствующих процессов. MLOps помогает организациям экономить на затратах на инфраструктуру и ускорить развертывание моделей при одновременном снижении эксплуатационных нагрузок.

Половина и даже больше ценности для бизнеса, полученной благодаря развертыванию МО в этом году, может быть получена благодаря MLOps.

Озера данных и облачные хранилища

Развертывание озер данных было большой тенденцией в 2020 г., но она все еще достаточно сильна, чтобы оставаться тенденцией и на этот год.

Озера данных, развернутые в 2021 г., будут следовать тренду использования облачного хранения и будут подключены к реляционным хранилищам данных согласно концепции lakehouse, предполагающей комбинирование элементов хранилищ и озер данных. Необходимость в этом видна на примере ранее развернутых озер. Их модернизация также станет крупным направлением деятельности на 2021 г.

Интересные достижения в облачных хранилищах также повышают их полезность. Например, Project Nessie предоставляет Git-подобный опыт для озер данных, а Apache Iceberg теперь является опцией, обеспечивающей транзакционную согласованность, откаты и перемещение во времени для озер данных. Nessie также позволяет транзакциям охватывать несколько пользователей и движков, таких как Spark, Kakfa, Hive и Dremio.

Озера данных являются частью расширенного современного стека технологий для данных. Для формирования когерентного стека используются исходные данные, интеграция данных и доступ к данным. В 2021 г. он будет расширяться благодаря включению аналитики данных, науки о данных, каталогов данных, управления рабочей нагрузкой, развертывания и компонентов безопасности.

Вряд ли что-то угрожает использованию технологий реляционных баз данных в результате этих разработок, но дискуссии о выборе слоя хранения наверняка разгорятся в этом году.