Количество публикаций, посвященных большим данным (Big Data) и машинному обучению (machine learning), увеличивается каждый день (а то и вовсе ежечасно). И хотелось бы взглянуть на эту проблематику с точки зрения инженера-разработчика. Как известно, есть три этапа становления любой научной теории: «Это невозможно. Это еще не доказано. Это общеизвестно». Попробуем посмотреть на машинное обучение в этом контексте.
Введение
Умные машины всегда будоражили наше воображение (особенно разного рода утопичными и апокалиптическими картинками). Что же произошло в наши дни? В машинном обучении можно выделить три основные составляющие: вычислительный ресурс, математические методы и данные, на которых алгоритмы обучаются. Сегодня вычислительные мощности, тем более где-нибудь в облаке AWS, более чем доступны, данных человечество накопило тоже довольно много, нужная математика тоже наработана. Более того, социальные сети ежесекундно генерируют массу информации (по большей части, информация это «мусорная», ну не станет моя жизнь лучше, если соседка по этажу выставит на всеобщее обозрение фото своей кошки). Но факт есть факт. Один только Facebook за весьма не долгое время своего существования создал петабайтов больше, чем человечество накопило знаний за свою историю. Поэтому разговоры об алгоритмах машинного обучения, способных обработать и, в конечном итоге, монетизировать все эти данные, слышны со всех сторон. Вопрос в том, что в этой дискуссии правда, а что (пока еще?) научная фантастика.
Это невозможно
Революция произошла в марте
Особенностью DeepMind AlphaGo также является ее неспециализированность. Например, возвращаясь к примеру IBM DeepBlue, надо отметить, что это была узкоспециализированная система, заточенная исключительно для игры в шахматы. Больше она ничего делать не умела. DeepMind AlphaGo может использоваться для других целей, и обучалась она, наблюдая за игрой других игроков. Это напоминает работу человеческого мозга с его многогранными когнитивными способностями в разных областях знания.
Это еще не доказано
Аналитическое агентство Gartner ставит машинное обучение на пик инфляционных ожиданий в своей кривой зрелости технологий (Gartner hype cycle). Судя по всему, так оно и есть в настоящий момент. Многие моменты еще не понятны и не доказаны, но правда в том, что сегодня мы имеем общедоступный инструмент и каждый может поиграть с уже созданными или разработать свою собственную модель нейросети. Разработчики делают ставку на глубинное обучение. Например, разработчик (Databricks) хорошо известного в мире больших данных фреймворка для распределенной обработки (Apache Spark) в этом году добавил поддержку фреймворка машинного обучения Google TensorFlow, разработанного командой Google Brain. Эта команда получила широкую известность своим экспериментом, когда искусственный интеллект (ИИ) из 16 000 машин в 2012 г. после просмотра 10 млн. картинок, взятых с YouTube, научился распознавать кошек без вмешательства человека в процесс обучения (так называемое unsupervised learning). В октябре
Прошедший в этом году в Сан-Франциско очередной саммит по Data Science и Apache Spark показал явный интерес к глубинному обучения. К слову, все основные выступления (keynote) таких гигантов, как Google, IBM, Microsoft, Intel, Baidu, Amazon и т. д., отдельно выделяли искусственный интеллект и машинное обучение в качестве приоритетных проектов.
Все неизвестное пугает. Нейросети выдают удивительные результаты (например, вышеприведенные примеры Google Brain) с высокой вероятностью, но совершенно непонятно, каким образом они сделали некоторые выводы. Экспертов в данной области гораздо меньше, чем проблем, и сегодняшним студентам и аспирантам предстоит еще попытаться объяснить, почему «умный» холодильник в один прекрасный день принципиально откажется заказывать по Интернету газировку одного известного бренда из-за того, что он чему-то там научился.
Это общеизвестно
В Интернете опубликовано открытое письмо, подписанное ведущими специалистами, которые работают в области ИИ. Среди них Стивен Хокинг (астрофизик), Илон Маск (Tesla, SpaceX), Стив Возняк (сооснователь Apple), Демис Хасабис (разработчик и сооснователь Google DeepMind) и др. Список известных имен, надо сказать, впечатляет. Это письмо констатирует серьезный прогресс в когнитивных технологиях и, в частности, в искусственном интеллекте. Основная идея этого обращения состоит в срочной необходимости разработки общепринятых правил, регламентирующих деятельность и моральные нормы ИИ. Последнее особенно актуально в связи с активной разработкой крупнейшими ИТ-компаниями и автопроизводителями беспилотных автомобилей, которые уже через
Это было только начало. 12 октября 2016 г. на сайте Белого дома был опубликован «Национальный стратегический научно-исследовательский план по разработке ИИ». В нем идет речь о необходимости долгосрочных инвестиций в исследование ИИ, обсуждаются вопросы человеко-машинного взаимодействия, правовые, социальные и морально-этические проблемы, которые возникнут при массовом внедрении искусственного интеллекта. Документ перекликается с основными положениями упомянутого выше открытого письма, представлен на 48 страницах и является весьма занимательной систематизацией современного состояния ИИ, включая анализ количества патентов, полученных странами-лидерами в области глубинного обучения (России, к большому сожалению, там нет).
О мифах и не только
Машинное обучение (и особенно обучение нейросетей) неразрывно связано с Big Data, поэтому эти вопросы часто рассматриваются вместе. Один из основных мифов в области машинного обучения, на мой взгляд, состоит в том, что Big Data повсюду вокруг нас и любая компания (пусть даже имеющая данные о своей деятельности за десятилетия) просто теряет время и деньги, если не бросится прямо сейчас искать и использовать у себя Big Data. Но и это тоже не совсем миф. Это скорее полумиф. На самом деле не у всех есть эти самые Big Data, и иногда приходится их генерить специально. Лидерами в Big Data, безусловно, являются поисковики, онлайн-магазины, финтех-компании и интернет-фирмы, занимающиеся ретаргетированием онлайн-рекламы. Однако не за горами тот день всеобщей цифровой эры, когда действительно придется учитывать много важной информации (в отличие от мусорной информации социальных сетей), которая будет поступать от различных сенсоров. Следует отметить, что горизонт прогноза наступления этой реальности зависит от субъективности (предвзятости/материальной заинтересованности) того или иного эксперта.
Как было показано выше, машинное обучение способно выявить скрытые (иногда мистические) закономерности. Далеко не всегда выявленная корреляция объясняет исходную причину того или иного явления, поэтому приходится сохранять долю скепсиса, чтобы не впасть в эйфорию от полученных результатов без соответствующего анализа. Реальностью является успешное применение ИИ в финансах, маркетинге, сельском хозяйстве и медицине (особенно в онкологии). Хорошим примером здесь может служить IBM Watson и его применение для онкодиагностики и назначения лечения в одном из ведущих мировых онкологических центров (Memorial Sloan Kettering Cancer Center, Нью-Йорк, США). Проект открывался для использования ИИ в лечении рака груди и рака легких, но затем был расширен и на другие формы рака (простаты, печени и т. д.).
Заключение
Проникновение ИИ в такие слабо- или вообще неформализуемые области, как интуиция, позволяет говорить о серьезном прогрессе когнитивных технологий. Надо сказать, что при написании этой статьи найти мифы, связанные с развитием ИИ, оказалось гораздо сложнее, чем реальные промышленные бизнес-кейсы, когда машины способны самообучаться. Значит, все-таки это уже реальность? Матрица и Скайнет перестают быть фантастикой? Кто знает, но жутко интересно.
Автор статьи — старший Java-разработчик центра исследований и разработки команды предиктивной аналитики в Anaplan.