На первый взгляд, ответ очевиден. Или не столь очевиден? Кстати, какой объем данных действительно необходим для работы ИИ?
Интересная публика собралась на недавно проходившей в Нью-Йорке конференции издательства O’Reilly по искусственному интеллекту (ИИ), пишет на портале ZDNet Тони Баер из компании Ovum. Помимо специалистов по данным, посещающих обычно подобные мероприятия, там было довольно много менеджеров. Об ИИ столько говорят и пишут, что о нем не слышали разве что в какой-нибудь глухой деревне. Но говорят и пишут довольно расплывчато. Вот руководители и решили составить себе представление о том, что скрывается за модным словосочетанием.
Редактор MIT Sloan Management Review Дэвид Кайрон представил результаты проведенного в 2017 г. опроса 3 тыс. руководителей, согласно которому организации находятся на ранних стадиях использования ИИ. Только 23% компаний развернули системы ИИ и лишь 5% приступили к их внедрению. Слушатели сочли эти показатели заниженными в связи с тем, что руководство не поддерживает тесные контакты с работниками, прокладывающими путь к ИИ. Но в прошлом году компания McKinsey также опросила 3 тыс. человек и обнаружила, что только 20% компаний применяют связанные с ИИ технологии, а в коммерческих целях — лишь 12%.
Нетрудно найти примеры удачного применения ИИ, отмечает Баер. С его помощью банк Wells Fargo усовершенствовал выявление мошенничеств и создал контекст, в котором действуют клиенты. Google обнаружила, что модель на базе машинного обучения, отслеживающая использование пробных версий G Suite, позволяет за два дня составить прогноз, кто приобретет пакет по окончании
Но изучая истории успеха и глубоко погружаясь в методологию, мы удивляемся, как могут люди подчинить себе такую силу, полагает Баер. Хотя аналитика расширила наши возможности получения знаний, решения об интерпретации данных по-прежнему принимают люди. Этот груз ответственности можно разделить с ИИ.
Баер также отмечает уверенность людей в том, что чем больше данных, тем лучше будет модель машинного или глубокого обучения. Действительно, взрывообразных рост данных стал одним из стимулов развития ИИ.
Но данные — не единственная причина расцвета ИИ. Облака, снижающие входной порог (вам не нужно приобретать собственное оборудование для высокопроизводительных вычислений), оптимизированные аппаратные компоненты (такие, как графические и тензорные процессоры), готовые сетевые подключения и открытый код (вам не нужно изобретать велосипед при разработке алгоритмов), безусловно играют свою роль. ИИ используется, чтобы помочь практикам освоить ИИ: появляются предназначенные для неспециалистов сервисы вроде Amazon SageMaker и инструменты вроде Oneclick.ai, благодаря которым не обязательно прибегать к услугам специалистов по данным, чтобы работать с ИИ.
Но, по мнению Баера, возникает назойливый вопрос: в какой момент нарастающие объемы данных начнут все больше утрачивать значение для ИИ? В области хранения сообщество Hadoop уже решает этот вопрос посредством erasure coding — кодирования с прямым исправлением ошибок (forward error correction). Когда Yahoo, Facebook и другие разрабатывали файловую систему Hadoop Distributed File System на основе исследований Google, они еще не сознавали, что у информации есть жизненный цикл.
Как заметил Баер, ни один из выступавших на упомянутой конференции не затронул вопрос о том, когда данных становится достаточно. Лишь доцент кафедры радиологии Стэнфордского университета Грег Захарчук косвенно указал, что успешная система ИИ не всегда требует кажущихся бесконечными потоков данных. В его конкретном случае речь шла об оптимизации использования медицинских снимков. Страховые компании и пациенты стремятся свести их количество к минимуму.
Захарчук и его коллеги изучали возможности использования для этого глубокого обучения. На небольшой выборке примерно из 100 пациентов они проверили возможность сравнения «эталонного образа» с реальными снимками и обнаружили, что использование глубокого обучения обещает восполнить имеющиеся пробелы.
Что касается объяснимости результатов деятельности ИИ, то реалистично ли ожидать, что мы сможем понять, что делают модели и как обоснованы их действия? Баер вспоминает слова учредителя компании SAS Джима Гуднайта, который несколько месяцев назад выразил обеспокоенность по поводу объяснимости машинного и глубокого обучения. Особенно при использовании нейронных сетей, в которых множество моделей может действовать согласованно, создавая цепочку команд. Здесь трудно выявить алгоритм или набор данных, ответственный за выдачу или отказ в предоставлении кредита. Ставки могут быть невысоки, если вы ищите логику в том, почему Netflix рекомендует конкретный фильм или Amazon предлагает сопутствующий выбранному продукт. Но если речь идет о планировании операции на мозге, это совсем другое дело.
Сообщество все еще пытается решить эту проблему.
Профессор Кембриджского университета Зобин Гарамани утверждает, что при использовании ИИ имеются проблемы с юридической ответственностью и конфиденциальностью.
Кэтрин Хьюм, венчурная предпринимательница и вице-президент по продукту и стратегии стартапа integrate.ai, применяющего ИИ к b2c, утверждает, что действительные проблемы с заключаются в объяснении того, что подается на вход моделей и что мы получаем на выходе. «Белые пятна в коллекции данных могут вызывать серьезные проблемы», — заявила она, отметив, что более уместно было бы сосредоточиться на выходной информации: получаем ли мы нужные результаты для нужных целей.
Вице-президент Unity Technologies по ИИ и машинному обучению Дэнни Лэнг указал на трудности объяснения предназначенных для выполнения повседневных функций моделей. Например, для рекомендации продуктов. Как объяснить эти модели? «Возможно, нам следует позаимствовать идеи из психологии человека», — рискнул предположить он.