Организации используют науку о данных для получения ответов на широкий спектр вопросов, но эти ответы не абсолютны, считают опрошенные порталом InformationWeek эксперты.

Специалисты по бизнесу традиционно смотрят на окружающий мир через призму конкретных терминов, а иногда даже круглых цифр. Их видение является черно-белым в отличие от видения оттенков серого, которое создают специалисты по данным. Последние не предлагают точных цифр, как, например, 40%. Их результаты носят вероятностный характер. Степень достоверности определяется допустимой погрешностью. (Разумеется, статистические расчеты гораздо сложнее).

Понимание вероятностного подхода помогает лицам, принимающим нетехнические решения, в следующем:

  • более критически относиться к цифрам, используемым при принятии решений;
  • понимать, что прогнозы носят вероятностный характер и не являются абсолютной истиной;
  • сравнивать варианты с более высокой точностью, сознавая, что все они являются компромиссами;
  • вступать в более содержательные и информативные дискуссии со специалистами по данным.

Действительно, есть несколько причин, по которым наука о данных не относится к точным. Некоторые из них описаны ниже.

«При эффективном применении науки о данных мы используем статистику для моделирования реального мира, но не ясно, описывают ли статистические модели, которые мы тщательно разрабатываем, происходящее в реальном мире, — сказал Бен Мозли, доцент кафедры исследования операций Tepper School of Business университета Карнеги — Меллона. — Мы можем определить некое распределение вероятностей, но не ясно, соответствует ли все происходящее в мире какому-то распределению вероятностей».

Данные

У вас могут быть все данные, необходимые для ответа на вопрос, а могут не быть. Но даже если они имеются, могут возникнуть проблемы с качеством данных, которые приведут к необъективным, искаженным или иным нежелательным результатам. Специалисты по данным называют это «мусор на входе, мусор на выходе».

Согласно Gartner, «низкое качество данных уничтожает их полезность для бизнеса» и в среднем обходится организации в 15 млн. долл. в год.

Если вам не хватает необходимых данных, результаты будут неточными, поскольку данные неточно отражают то, что вы пытаетесь измерить. У вас может иметься возможность получить данные из внешнего источника, но помните, что и у них могут быть проблемы с качеством. Примером служат данные по COVID-19, которые в разных источниках отражены по-разному.

«Если вы не дадите мне хороших данных, то безразлично, сколько данных вы мне предоставите. Я никогда не извлеку из них того, что вы хотите», — сказал Мозли.

Вопросы и ответы

Как говорится, если хотите получить хорошие ответы, задавайте хорошие вопросы. Хорошие вопросы готовят специалисты по данным, формулирующие проблему совместно с экспертами в соответствующей предметной области. Кроме того, имеют значение предпосылки, доступные ресурсы, ограничения, цели, потенциальные риски и преимущества, критерии успеха и форма вопроса.

«Порой непонятно, как сформулировать правильный вопрос», — отметил Мозли.

Ожидания

Науку о данных порой считают панацеей или магией. Она не является ни тем, ни другим.

«Наука о данных и машинное обучение имеют существенные ограничения, — признал Мозли. — Мы превращаем реальную проблему в чисто математическую и при этом теряем массу информации, потому что ее необходимо как-то упорядочить, чтобы выделить ключевые аспекты проблемы».

Контекст

Модель может прекрасно работать в одном контексте и потерпеть сокрушительный провал в другом.

«Необходимо четко понимать, что данная модель является правильной только в конкретных условиях. Они представляют собой граничные условия, — сказала профессор колледжа Беркли Даршан Десаи. — И если эти граничные условия не соблюдаются, предположения оказываются неверными и модель нуждается в пересмотре».

Даже в рамках одного и того же сценария предсказательная модель способна оказаться неточной. Например, базирующаяся на исторических данных модель оттока клиентов может придавать больше значения недавним покупкам, чем прошлым, или наоборот.

«Первое, что приходит в голову, это построение прогноза на базе имеющихся данных. Но если вы создадите модель прогноза оттока клиентов на основе данных, которые у вас есть, вы обесцените данные, которые соберете в будущем», — сказала Десаи.

Нейронные сети

Михаил Юрушкин, главный технолог и учредитель специализирующейся на науке о данных компании BroutonLab, напомнил шутку о том, что наука о данных не является точной из-за нейронных сетей.

«Если вы откроете GitHub и попытаетесь воспроизвести результаты других исследователей в нейронных сетях с открытым кодом, вы получите отличающиеся результаты, — сказал он. — Один исследователь составляет документ и готовит модель. Согласно требованиям доказательности, вы должны подготовить модель и продемонстрировать результаты. Но очень часто специалисты по данным не предоставляют модель. Они говорят: „Я предоставлю ее в ближайшем будущем“. Но ближайшее будущее не наступает годами».

При обучении нейронной сети с использованием стохастического градиентного спуска результаты зависят от точки отсчета случайного числа. Таким образом, если другие исследователи начнут обучать ту же нейронную сеть с помощью того же метода, спуск начнется с другой случайной точки отсчета и результаты окажутся иными, пояснил Юрушкин.

Маркировка

Распознавание образов начинается с промаркированных данных. Например, на фотографиях кошки и собаки должны стоять соответствующие маркеры — «кошка» или «собака». Но не весь контент так легко промаркировать.

«Если вы захотите создать бинарную классификацию картинок категории NSFW, вам будет трудно отнести изображение к этой категории, поскольку на Ближнем Востоке, в таких странах, как Саудовская Аравия или Иран, фотография женщины в бикини будет рассматриваться как контент категории NSFW. Но в США, где культурные стандарты и нормы совершенно иные, результат маркировки фотографии будет другим. Много зависит от условий и от первоначальных данных», — сказал Юрушкин.

То же происходит, когда нейронная сеть обучена распознавать тип изображения, поступающего с мобильного телефона. Если она обучалась на песнях и фотографиях, передаваемых со смартфона под управлением iOS, она не сумеет распознать тот же тип контента, поступающего с устройства под управлением Android, и наоборот.

«Многие нейронные сети с открытым кодом, решающие проблему распознавания лиц, настраивались на определенный набор данных. Так что если мы попытаемся использовать такую нейронную сеть в реальных ситуациях с реальными видеокамерами, она не сработает, потому что изображения поступают из новой, несколько отличной области, из-за чего нейронная сеть не сможет правильно их обрабатывать, — сказал Юрушкин. — К сожалению, трудно прогнозировать, в какой области модель будет работать хорошо, а в какой плохо. Не существует оценок или формул, которые помогли бы нам, исследователям, найти наилучший вариант».