Все организации — большие и малые — сегодня в полной мере осознают, что данные определяют их бизнес, пишет на портале InformationWeek Карлос Мелендес, операционный директор и соучредитель компании Wovenware.

А как иначе? Данные называют «новой нефтью» и «новым золотом», и они являются ценным товаром. Более того, многие компании с нетерпением ждут того дня, когда их информационные активы будут включены в балансовые отчеты наряду с выручкой, запасами, основными средствами и оборудованием.

Это во многом жадное стремление к получению данных породило новые технологии, нацеленные на места их скопления. Датчики и устройства Интернета вещей (IoT) собирают данные о местоположении в режиме реального времени для отслеживания производительности в цехах, манеры вождения автомобилей, энергопотребления и т. д. Это лишь некоторые источники. Кроме того, данные собирают, хранят и анализируют и корпоративные системы, такие как CRM и ERP.

В последнее время развитие искусственного интеллекта не только усиливает потребность в большом количестве данных, но и позволяет преобразовывать эти данные в содержательные выводы. ИИ является одновременно и получателем, и поставщиком данных.

Однако все так увлеклись данными как топливом для эффективного ИИ и идеей о том, что большое количество данных означает успех, что, похоже, соображения количества возобладали над качеством. Ниже приведены пять основных заблуждений относительно данных, которые могут повлиять на эффективность их использования.

Заблуждения

О вашем бизнесе будут судить по количеству собранных вами данных. С тех пор как данные стали императивом бизнеса, компании стали стремиться собрать как можно больше данных, не имея при этом последовательной стратегии. Однако никакое количество данных не сможет решить бизнес-проблему, если это не те данные, которые нужны. О компаниях будут судить не по количеству данных, а по принятым на их основе бизнес-решениям. Поэтому, прежде чем приступать к сбору данных — «чем больше, тем лучше», — компаниям следует сначала определить свою бизнес-проблему, а затем приступить к сбору именно тех данных, которые помогут ее решить.

Все данные должны быть вашими собственными. Действительно, данные, которые вы собираете о клиентах, заинтересованных сторонах, партнерах и продуктах, являются уникальными для вашей компании и с большой вероятностью могут дать весьма специфические инсайты о вашем бизнесе. Однако это не обязательно должны быть ваши собственные внутренние данные, на основе которых принимаются обоснованные решения или работают алгоритмы ИИ. После выявления бизнес-проблемы необходимо провести аудит данных, чтобы собрать всю информацию, которая может иметь отношение к делу, а затем дополнить ее синтетическими данными — данными, сгенерированными искусственно, а не полученными из реальных ситуаций. Синтетические данные не только помогают получить необходимую информацию, но и устраняют проблемы конфиденциальности, которые могут возникнуть при использовании личных или конфиденциальных данных для обучения.

Данные объективны. Компаниям, которые утверждают, что ориентированы на данные, поскольку такой подход более научный, беспристрастный и фактологический, возможно, стоит задуматься еще раз.

Не все данные непредвзяты. Когда специалисты по данным подбирают обучающие наборы данных для ИИ-решений, в них может закрасться предвзятость, основанная на собранных данных. Например, если решение обучается определять право человека на получение ипотечного кредита, насколько разнообразны данные, на которых оно обучается? Или, если данные используются для обучения системы распознавания лиц, насколько разнообразны используемые изображения? На данные необходимо смотреть через призму непредвзятого разнообразия, поскольку даже сам процесс сбора данных (или отсутствие сбора определенных типов данных) может привести к тому, что предвзятость может проявиться неосознанно.

Данные поступают из текста. Когда мы думаем о данных, мы часто представляем себе факты и цифры: списки клиентов и даты взаимодействия с ними, квартальные показатели прибыли, детали изделий, количество автомобилей, фонарей или любую другую информацию, необходимую для принятия бизнес-решений. Однако современные данные гораздо богаче. Данные поступают в виде изображений, например со спутников, графиков и фотографий, а также в виде видео- и аудиофайлов. Все эти типы данных вместе создают историю, которая в конечном итоге решает бизнес-задачу, раскрывая ее суть.

Данные — это область ИТ. По мере того как компании работают над устранением разобщенности данных между отделами и созданием единого источника истины в централизованном хранилище данных, возникает вопрос о том, кто на самом деле «владеет» этой работой. Поскольку данные являются топливом для множества технологических решений, включая ИИ, может показаться, что ответственным за них должен быть ИТ-департамент. Однако по мере того, как данные становятся стратегическим активом компании и основой для принятия эффективных решений, управление ими должно осуществляться на более горизонтальном, общекорпоративном уровне. Речь идет не только об ИТ-платформах, которые будут поддерживать данные, но и о необходимости организации администрирования данных — кто имеет к ним доступ, какие типы данных запрещены и как обеспечивается конфиденциальность? Многие компании начинают вводить должности директоров данным, которые рассматривают данные с точки зрения бизнеса, и единственная задача которых — сделать данные ключевым корпоративным активом, способствующим принятию решений.

На самом деле в данных нет ничего нового. Благодаря новым источникам данных, развитию ИИ и поиску истины их стало еще больше. Однако прежде чем компании начнут лихорадочно работать над накоплением своих информационных активов, как денег в банке, им необходимо определить, чего они хотят добиться с их помощью. Уподобляясь Марку Твену, можно сказать: «Данные — это как мусор. Лучше знать, что ты собираешься с ними делать, прежде чем собирать их».