Большие данные позволяют руководителям ИТ-подразделений и высшему менеджменту компаний рассчитывать на то, что они смогут получать с помощью новейших аналитических инструментов, просеивающих гигабайты и терабайты корпоративных данных, такие знания о бизнесе, которые повысят его прибыльность.
Компании и институты располагают гораздо большим количеством данных о том, что люди покупают, ищут в Интернете или обсуждают в онлайне, чем когда-либо в истории, начиная с покупательских привычек и заканчивая медицинскими исследованиями.
Целый ряд экспертов согласны, что большие данные обладают фантастическим потенциалом, но вероятность успеха, — во всяком случае, в настоящее время, — часто составляет 50 на 50.
Проблема, обсуждавшаяся в конце января на организованном корпорацией Dell мероприятии, заключается в том, чтобы составить необходимый набор данных, который даст полезные знания.
«Большие данные — это общее обозначение технологии, быстро предоставляющей доступ к огромным наборам данных с такими целями, которые раньше невозможно было себе представить, поскольку они были недостижимы. Теперь положение изменилось, — считает аналитик IDC Карл Олофсон. — Но если вы не знаете, что делаете, большие данные имеют ограниченную ценность. Мне известны такие случаи».
Учитывая сказанное, Олофсон считает, что решения для больших данных оказались полезными, например, для розничной торговли. В качестве примера он приводит компанию, продающую обувь через Интернет-магазин. Она видит большой интерес к своему товару, судя по количеству просмотров страниц сайта. Но количество покупок не столь уж велико.
«Анализ больших данных может показать, что проявляется большой интерес к обуви определенного цвета, но ее часто нет в продаже, — сказал он. — Это полезные знания. Другое серьезное достоинство заключается в том, что большие данные постоянно изменяются, а вы имеете возможность реагировать на эти изменения».
Благодаря облачным вычислениям, сказал Олофсон, вы можете опробовать решения для больших данных со срезами данных, имеющихся в вашей организации, и не затрачивая больших сумм посмотреть, предоставляют ли они необходимые вам знания.
Тем не менее, на сегодняшний день многие малые и средние предприятия не вложили средства в большие данные. Либо потому, что это слишком дорого, либо потому, что требуется слишком много времени для изучения и адаптирования их собственных бизнес-процессов, чтобы оправдать использование больших данных, считает исполнительный директор группы Dell Enterprise Solutions по стратегии предприятий Мэтт Бейкер.
Он сравнивает преимущества больших данных с полезностью видео по сравнению со статичной картиной. «Но если говорить о больших данных, многие предприятия СМБ не имеют еще даже картины своих данных. Они обходятся простейшими отчетами».
Среди участников мероприятия разгорелась дискуссия на тему о больших данных в здравоохранении и о том, смогут ли компьютеры когда-нибудь, возможно, лет через пять, анализировать наши медицинские карты и рекомендовать варианты лечения без участия врачей.
Эта идея была отвергнута по многим причинам, в том числе потому, что компьютер не обладает знаниями врача и не может оценить, например, как пациент отвечает на вопрос (выражение лица, тембр голоса и т. д.) и какие дополнительные вопросы следует задать.
«Одна из особенностей больших данных заключается в том, что здесь мы имеем дело исключительно с корреляциями, а не с причинностью, — сказал вице-президент и главный исследователь подразделения Dell Research Джей Менон. — Если данные показывают, что апельсиновый сок и витамины помогают при таком-то виде рака, остается неизвестным, почему».
Но клиент Dell Кен Йел, вице-президент Active Health Management по клиническим решениям, считает, что большие данные могут играть более важную роль. По его словам, чтобы сохранить здоровье, мы полагаемся на знания врача. Но исследования показали, что «в 50% случаев его диагноз неверен». Йел прогнозирует, что «через пять лет
Охрана личных сведений
Другая актуальная проблема больших данных — это защита персональных данных. Участники дискуссии отмечали, что мы сейчас годами, если не десятилетиями собираем данные о людях. Эти данные могут использоваться таким образом, который нельзя было предвидеть, приступая к сбору. Хотя системы для работы с большими данными способны собирать данные в агрегированном виде для выявления тенденций без указания на конкретных лиц, анализ может быть столь точным, что его результаты позволят идентифицировать человека или группу лиц, скажем, с уникальным набором симптомов.
В любом случае молодые люди проявляют больше готовности к предоставлению о себе подробной информации, особенно в социальных сетях. Предстоит узнать, к чему это приведет в будущем.
«Другой вывод из нашего исследования поведения молодого поколения и последствий предоставления информации о себе широкому кругу лиц заключается в том, что существует риск, что вы знаете обо мне недостаточно много и не используете информацию, которой я хочу поделиться, — сказал старший аналитик Enterprise Strategy Group Ник Роуда. — Я хочу, чтобы мне предложили нужный мне продукт, а не машину, которую я только что купил. И если у моей страховой компании есть причины считать, что мое здоровье под угрозой, сообщите мне об этом».