Одной из важнейших тенденций развития больших данных в 2018 г. станет более тесная интеграция с искусственным интеллектом (ИИ), наукой о данных и машинным обучением, но управление метаданными и глобальные фабрики данных тоже будут играть важную роль.
Большие изменения грядут в области больших данных и аналитики, и те, кто принимает решения в сфере ИТ, должны подготовиться к значительному прогрессу в 2018 г. Наиболее существенной тенденцией развития больших данных является более тесная интеграция с ИИ и машинным обучением, но управление метаданными и глобальные фабрики данных тоже будут оказывать влияние в будущем году. Ниже приводятся прогнозы некоторых авторитетных отраслевых экспертов.
«Искусственный интеллект, особенно наука о данных и машинное обучение (DS&ML), изменят способ получения данных, их анализа и управления ими. Сегодня ввиду сложности это в основном делается людьми, часто разработчиками, нанятыми внешними сервис-провайдерами. Однако DS&ML — это движущие силы будущих сервисов данных и аналитики (D&A). Сначала речь пойдет об автоматизации простых повседневных задач вроде извлечения данных. Со временем последуют более сложные и нетривиальные задачи, что приведет к „интеллектуальной“ автоматизации. Потенциально это расширит знания о предприятиях, поскольку увеличит сферу применения проводимой человеком аналитики, — сказал директор Gartner по изучению данных и аналитике Йорген Хайзенберг. — Мы станем свидетелями перехода от предоставляемых человеком сервисов D&A к машинным, часто в качестве элементов конвергированных аналитических решений, состоящих из сервисов и ПО (servware). Для формирования доверия компаниям следует создать группы для тестирования и изучения всех используемых моделей, алгоритмов и данных».
Получение улучшенных результатов от больших данных и ИИ
«Не может быть ИИ без архитектуры информации, — утверждает главный менеджер IBM Analytics Роб Томас. — Трудно создать ИИ, если у компаний отсутствует необходимая инфраструктура. Для получения значимых результатов данные должны быть организованы, и должна использоваться правильная технология».
Он отметил, что Интернет вещей существенно усугубляет связанные с данными трудности, заставляя компании за короткие периоды времени поглощать огромные объемы данных, передаваемые с невероятной скоростью. Во многих организациях это создает напряженность.
Большинство руководителей, с которыми общался Томас, понимают, что данные — это источник конкурентного преимущества, но они хотят получать результаты, которые лучше получаемых сегодня. Одно из предлагаемых им решений заключается в создании каталогов данных в удобоваримой форме, что может упростить поиск данных и извлечение из них знаний.
При этом важную роль играет управление метаданными. «Компаниям необходим единственный источник правды, — сказал Томас. — Каталоги данных обеспечивают это, а управление метаданными детализирует, что имеется в каталоге».
По его словам, такое управление данными важно как для соблюдения требований регуляторов, так и для доступа к данным в порядке самообслуживания. Он добавил, что Общий регламент защиты данных Европейского союза (GDPR) «придаст в 2018 г. сильный импульс управлению данными».
Еще один момент, который подчеркнул Томас, это важность демократизации аналитики данных, чтобы эти продукты могли использовать не только специалисты по данным и бизнес-аналитики, но и нетехнические работники.
«Аналитические системы должны быть простыми, элегантными и иметь прекрасный дизайн, — сказал он, добавив, что это сделает такие системы проще в установке и использовании, а тем самым — доступными растущему числу сотрудников. — Например, нетехнический специалист может загрузить СУБД DB2 с сайта IBM менее чем за 10 минут».
Совершенствование аналитики с помощью ИИ
«Мир движется от больших данных к использованию всех данных — структурированных, неструктурированных и контекстуальных — из таких источников как датчики, социальные базы, видео и чаты, — сказал главный технолог Accenture Applied Intelligence Жан-Люк Шатлен. — В результате гораздо труднее отделить сигнал от шума. Но нельзя получить хорошие знания из плохих данных. Поэтому в 2018 г. ИИ должен будет играть гораздо более важную роль в подготовке данных. Но не только в подготовке данных. ИИ предоставляет компаниям возможность усовершенствовать аналитику в целом. Например, он смогут обнаруживать и усиливать „слабые сигналы“ и выявлять шаблоны, которые без этого не обнаруживаются. Это поднимет компании на новый уровень интеллектуальности, и они смогут, скажем, разрабатывать свой порядок взаимодействия и продукты для каждого клиента или осуществлять персонализированную разработку лекарств. В ближайшем будущем мы увидим гораздо большую гиперперсонализацию на базе ИИ и аналитики».
Он отметил, что «эта новая интеллектуальность повлияет на сотрудников. Она усовершенствует принятие решений человеком и позволит автоматизировать механически выполняемые задачи, предоставив работникам возможность осуществлять функции, имеющие больше стратегическое значение и лучше оплачиваемые. При развертывании ИИ для получения более точных знаний из данных или для автоматизации процессов компании всегда должны ставить людей на первое место. Это подразумевает использование ИИ таким образом, который совместим с благополучием их сотрудников и клиентов».
Компаниям, сказал Шатлен, «необходимо соблюдать этические стандарты дизайна ИИ и, поскольку личные данные будут использоваться для получения беспрецедентного объема знаний, гарантировать высокий уровень защиты и прозрачности».
Создание глобальной фабрики данных
«Большие данные превращаются в важный актив, а предприятия трансформируются в управляемые данными концерны, — считает главный архитектор приложений MapR Тед Даннинг. — Такая трансформация естественным образом ведет к превращению систем больших данных в центр тяжести предприятий с точки зрения размера данных, их хранения и доступа к ним, а также операций и аналитики. В результате больше компаний будут искать способы создания глобальной фабрики данных, которая преодолевает изолированность и предоставляет подлинно многопользовательским системам полный доступ к данным из множества источников и к вычислительным ресурсам».
Даннинг прогнозирует, что в 2018 г. «мы увидим, что больше компаний рассматривают вычисления с точки зрения потоков данных, а не как просто обработку данных и размещение их в базе. Эти потоки данных фиксируют ключевые события бизнеса и отражают структуру бизнеса».
Он считает, что «единая фабрика данных станет фундаментом для построения этих крупномасштабных систем, оперирующих потоками. Такого рода фабрика будет поддерживать множество видов вычислений, адекватных для различных контекстов».
Даннинг прогнозирует, что «базы данных превратятся в естественных партнеров и дополнение потока данных. Новая тенденция состоит в обладании фабрикой данных, которая обеспечивает данными в движении и данными в состоянии покоя, что необходимо для многооблачных вычислений, предоставляемых такими системами, как Kubernetes».
Трудности и возможности
Несмотря на огромные возможности, предоставляемые большими данными и аналитикой, здесь имеются некоторые трудности. Во всемирном исследовании SAP «Data 2020: State of Big Data Study» говорится, что 74% опрошенных лиц, принимающих решения в области ИТ, сообщили, что их данные настолько сложны, что это ограничивает их гибкость, а половина опрошенных заявили, что многие сотрудники и менеджеры не могут получить доступ к важнейшим данным.
Кроме того, 85% респондентов пытаются справиться с данными, поступающими из различных точек, у 72% сложность данных обусловлена большим количеством и разнообразием источников данных.
По мере использования ИИ и других технических новшеств для совершенствования и упрощения больших данных и аналитики организации будут все лучше подготовлены к решению этих сложных проблем.