Для искусственного интеллекта ничто не имеет большего значения, чем данные, пишет в корпоративном блоге Энтони Брэдли, вице-президент группы в исследовательской практике Gartner по поставщикам технологий и услуг.
Ваши данные не готовы для ИИ. Это касается почти всех данных. Почему? Потому что сбор данных никогда не предназначался для ИИ.
В то же время данные — это жизненная сила ИИ. Для его успеха необходимо правильное количество правильных данных. Это часто является самой большой проблемой при поиске решений на основе ИИ для больших проблем. ИИ будет напрямую отражать характеристики данных. Ненадежные данные приводят к ненадежному ИИ. Плохие данные создают плохой ИИ. Необъективные данные создают необъективный ИИ.
Каждый бизнес-лидер должен понимать характеристики данных, лежащих в основе ИИ, чтобы судить о качестве ИИ. Именно здесь они могут принести значительную пользу. Теоретически, бизнес-лидеры должны знать сильные и слабые стороны и ценность своих бизнес-данных. Никогда не недооценивайте их значение. И никогда не переоценивайте их качество. Однако большинство бизнес-лидеров поступает наоборот.
Доступность качественных данных будет оставаться главным препятствием на пути развития ИИ. Вот несколько моих личных позиций, которые некоторые могут счесть спорными:
- Инженерия данных более важна для ИИ-решений, чем наука о данных.
- Данные о выполнении задачи более ценны, чем сама задача.
- Синтетические данные вытеснят реальные данные в качестве основного топлива для ИИ.
Вот несколько важнейших вопросов о данных, на которые должны получить ответы руководители компаний, прежде чем дать зеленый свет любой ИИ-инициативе.
Достаточно ли у нас данных?
Когда COVID-19 достиг статуса глобальной пандемии в 2020 г., люди возлагали большие надежды на ИИ как на путь к решению проблемы. Так почему же решения появлялись медленно и были неэффективными? Одна из главных причин (если не самая главная) — у нас просто не было данных. COVID-19 был новым, никогда ранее не идентифицированным коронавирусом. Нам нужно было собрать, обработать и проанализировать новые данные. Данные, которых не существовало. Многие страны практически сразу внедрили ИИ для отслеживания контактов и распространения заболевания, но у нас не было достаточно данных для лечения даже с помощью ИИ.
Правильные ли у нас данные?
В некоторых случаях у нас много данных, но это не те данные, которые нужны. Помните, что правильные данные содержат ответы, которые вы ищете. Это было одним из слабых мест в многолетнем исследовании Принстона «Fragile Families Challenge». Да, был очень большой набор надежных данных. Но этот набор данных был создан для социологов, чтобы изучать семьи, образованные родителями, не состоящими в браке, и жизнь детей, родившихся в этих семьях. Он не был предназначен для ИИ, от которого требовалось предсказать шесть конкретных жизненных исходов детей, включенных в наблюдения. Вероятность того, что искомый ответ содержится в данных, была невелика. В действительности, вы не можете создать набор данных для такой широкой цели с какой-либо гарантией того, что ответ будет в этих данных.
Можем ли мы получить нужные данные?
Один из лучших способов обеспечить наличие нужных данных — это разработать набор данных специально для применения ИИ к конкретной проблеме. Так было в случае с 50 000 рентгеновских снимков грудной клетки, собранных для радиологического ИИ-исследования CheXNeXT в Стэнфорде. Тамошние специалисты в области науки о данных знали, что в данных рентгеновских снимков представлено достаточное количество определенных видов сердечных заболеваний, поэтому они полагали, что существует большая вероятность того, что они смогут использовать эти данные для построения модели ИИ, способной обнаружить эти заболевания. По крайней мере они знали, что для этих целевых заболеваний ответ находится в данных. И они не рассчитывали, что алгоритм ИИ распознает какие-либо другие заболевания.
Иногда «правильные данные» не существуют, или их сбор обходится слишком дорого. Именно здесь на помощь приходят синтетические данные. С помощью современных технологий вы можете создать большой набор данных нужной спецификации. Однако всегда существует риск, что данные не будут отражать реальное положение дел. В некоторых случаях организации не хотят, чтобы их ИИ отражал реальный мир. Вместо этого они обучают алгоритмы ИИ отражать желаемый мир. Затем они ищут желаемый сценарий в реальном мире. Это один из способов, с помощью которого компании пытаются бороться с предвзятостью реального мира. Ведь даже правильные данные из реального мира могут не содержать ответа на следующий вопрос.
Содержат ли наши данные нужный нам ответ?
Вам необходимо убедиться, что нужный вам ответ содержится в данных, как бы это ни было сложно. Хорошие ИИ-данные не только содержат ответ, но и отражают сценарий, который вы хотите смоделировать. А этот сценарий может не иметь места в реальности. Все данные необъективны, и точка. Точные данные «реального мира» будут отражать фактическую предвзятость реального мира. Так что если мы исследуем практику кредитования жилья, практику продажи недвижимости, или систему школьного обучения, любые присущие участвующим в этом людям, практикам и системам предубеждения будут отражены в данных. И эти предубеждения будут отражены в алгоритмах ИИ, обученных на этих данных.
В середине
В данных был ответ. Но это был необъективный ответ, и не обязательно тот, который искала компания. В итоге Amazon отказалась от этого проекта — в основном потому, что, хотя у них было много «правильных» данных, у них не было данных, которые дали бы им приемлемый ответ. И если даже Amazon может совершить такую ошибку, то это может сделать каждый.
Предвзятость хороша или плоха только в зависимости от желаемого результата.
Поскольку все данные реального мира являются необъективными, очень важно понять, как эта необъективность повлияет на «ответы», которые ИИ найдет в данных. Зная это, бизнес-руководители могут либо обеспечить корректировку данных, либо учесть предвзятость в бизнес-решениях, принимаемых на основе ИИ. Предвзятость и прозрачность — важные аспекты ИИ. Сегодня быстро развивается целая область этичного ИИ. Важной ее частью является осознание бизнес-лидерами присущей данным (и, следовательно, ИИ) предвзятости и, при необходимости, корректировка бизнес-решений и практики противодействия этой предвзятости. Важной частью этичного ИИ является обеспечение того, чтобы данные содержали правильный ответ на бизнес-задачу.
В обозримом будущем получение нужного количества нужных данных останется серьезной проблемой для ИИ. Часто это делает ИИ непомерно дорогим для всех, кроме самых крупных компаний. Стоимость приобретения, подготовки и обработки данных может достигать миллионов долларов в зависимости от типа необходимого ИИ.
Существует несколько способов получения доступа к данным, включая:
- накопление, управление и обработка внутренних бизнес-данных;
- приобретение, управление и обработка внешних данных;
- сбор данных методом проб и ошибок (обучение с подкреплением);
- синтез данных для обучения ИИ;
- приобретение алгоритмов, обученных другими организациями на своих управляемых данных.
Каждый из этих и других подходов сопряжен с компромиссами между затратами и выгодами.
Резюме
Очень важно, чтобы руководители компаний понимали основы данных, лежащих в основе ИИ. Качество и стоимость данных являются основой любого бизнес-обоснования ИИ. Неправильное решение здесь ставит под угрозу весь ИИ-проект и, возможно, весь бизнес.