Хотя искусственный интеллект (ИИ) и машинное обучение (МО) закономерно вызывают все больше восторгов, мы мало знаем о переходе от сбора данных к их анализу с помощью алгоритмов. Изучая процесс, лежащий в основе создания гипотетических моделей МО, можно увидеть, какие важные процессы часто замалчиваются в статьях, восхваляющих достоинства ИИ, пишет разработчик системы человеко-машинного взаимодействия из компании Figure Eight Киран Ваяпи на портале eWeek.
Figure Eight создала работающую под управлением человека программную платформу ИИ, которая обучает, тестирует и отлаживает модели МО для науки о данных и занимающихся МО сотрудников. Платформа поддерживает такие типы данных, как текст, изображение, аудио и видео.
Складывается впечатление, что с каждым днем мы слышим все больше разговоров о высоком потенциале ИИ и МО. Чем большую известность приобретает ИИ, тем больше появляется рассказов о его применении или потенциальном, будущем применении.
А вот то, о чем не принято говорить.
1. Аннотирование
Если, например, найти с помощью Google изображения улиц и обработать их посредством алгоритма автономного транспортного средства, результат, вероятно, не позволит предпринять никаких действий. Потребуется человек, который перед передачей данных модели составит аннотации данных или создаст метки. На каждой фотографии человеку необходимо будет пометить обочины дороги, каждый пожарный гидрант и телефонный столб, каждого человека и многое другое.
Для создания модели автономного транспортного средства организация, вероятно, захочет пойти дальше, чем позволяют сделанные человеком аннотации или метки. Она может воспользоваться семантической сегментацией, при которой каждый пиксел изображения получает метку. Если модель должна делать нечто столь важное, как управление транспортным средством, необходимо, чтобы ИИ знал об обстановке как можно больше.
Процесс аннотирования особенно важен для обеспечения качества и точности данных. Поэтому используемые для аннотирования инструменты должны адекватно применять человеческий интеллект. Еще до расстановки меток организации захотят в первую очередь подумать над своими подходами к сбору данных.
2. Дополнение данных
При отсутствии совершенного набора данных для вашего алгоритма обычно производится пополнение имеющегося набора данными. Рассмотрим модель для распознавания речи (такую, как Alexa или Siri). Если получить из студии звукозаписи чистые звуки, алгоритм может столкнуться с трудностями в реальном мире. Поскольку модель обучена распознавать чистые звуки в стерильном окружении, она сможет не воспринимать голосовое управление, засоренное шумами или помехами. К счастью, можно сделать данные более реалистичными, если создать для чистых данных шумовой фон с помощью дополненных данных.
3. Перенос обучения
Если вы пытаетесь создать алгоритм МО для коммерческого приложения, велика вероятность, что набора данных для вашего случая не существует. Рассмотрим модель для выявления рака с помощью рентгеновского аппарата. Общедоступных снимков больных, вероятно, будет немного. Перенос обучения позволяет использовать имеющиеся модели. Возможно, удастся использовать имеющуюся модель, обученную правилам распознавания границ объектов на уровне пикселов и общей идентификации компонентов изображений на других наборах данных.
Вместо того, чтобы обучать свою модель на миллионах изображений, вы можете удалять слои имеющейся модели, пока не достигнете подходящей точки отсчета. Затем обработать ее по алгоритму, который идентифицирует определенные пикселы. Можно переобучить модель для лучшего распознавания тонкостей рентгеновских снимков. В процессе переобучения вы разработаете подходящую для вашего случая нейронную сеть.
4. Итерации
Хотя это трудно себе представить, но можно запросто собрать слишком много данных. При обучении модели самое правильное — работать итеративно. Если у вас 1 тыс. рентгеновских снимков, используйте их в первую очередь. Обучив модель, вы будете увидите, работает она или нет. Допустим, вашей целью является 85%-ная точность. Если вы этого уже добились, нет нужды собирать дополнительные данные.
Даже если у вас нет доступа к большому набору данных, лучше всего создавать модель итеративно. Возьмем данные, для которых необходимо составить аннотации или создать метки. Вы можете использовать имеющиеся данные с метками для обучения модели, которая сама разметит дополнительные данные. Когда вы пропустите размеченные данные через модель, та создаст собственную нейронную сеть и, в конечном итоге, повысит степень достоверности вашего алгоритма.
Модель может разметить одно изображение со степенью достоверности 20%, а другое — 80%. Изображения с достоверностью разметки ниже определенного порога следует передать людям для аннотирования или расстановки меток, а затем обучить модель на правильно размеченных данных.
5. Постановка цели
Главная из стоящих перед компаниями проблем с данным заключается в том, что они не знают, как их лучше всего использовать. Одна компания пыталась прогнозировать цены акций. Например, когда речь шла об Apple, были собраны все возможные данные о связанных с этой корпорацией настроениях. В конечном итоге выяснилось, что для более точного прогноза следовало учесть данные, характеризующие не только Apple, и что сбор различных типов данных давал более стабильный алгоритм долгосрочного прогноза.
Компаниям следует в первую очередь поставить перед собой цель понять, что они собираются создать с помощью данных. Если бы мы заранее поставили перед собой такую цель, мы могли бы с самого начала создать более точную модель. Определив цель, вы получите систему отсчета, которую сможете использовать при разработке стратегий и реализации инициатив в области ИИ.
Со временем специфика ваших данных и проблемы, которые вы пытаетесь решить, изменятся. Но если вы знаете, какого состояния хотите достичь, то сможете разработать необходимые для этого инструменты и алгоритмы. При использовании названных инструментов для создания моделей возрастает вероятность, что ваши проекты будут более эффективными, точными и экономичными.