Значение данных сложно переоценить — есть даже наука о данных, помимо этого они играют ключевую роль в аналитике, которая является подспорьем для принятия ключевых бизнес-решений. Долгие годы платформы углубленной аналитики, применяющие количественные методы анализа данных (статистика, описательный и прогнозирующий data mining, имитационное моделирование и оптимизация) были уделом высококвалифицированных аналитиков (data scientist), однако в последнее время начало появляться новое поколение аналитиков — гражданских специалистов по данным (сitizen data scientists, CDS).
Как пишет в корпоративном блоге вице-президент и главный аналитик Forrester Research Майк Гуалтьери, простейшее описание их полномочий сводится к следующему: они не являются специалистами по данным. «Я не вкладываю в это объяснение некий уничижительный подтекст, просто CDS — это отважные люди, которые хотят изучить все тонкости науки о данных, но фактически не разбираются во всех тонкостях жизненного цикла данных. Например, они не всегда смогут разобраться с тем, какие корпоративные данные нужно выбрать для создания модели из-за непонимания разницы между алгоритмами машинного обучения GBM, „случайный лес“ и SVM», — сказал он.
Практически с полной уверенностью можно предположить, что для большинства CDS эти термины сродни «темному лесу». Более того, CDS воспринимают науку о данных не как науку, а как инструмент для выполнения своей работы. «Я подобрал описание для среднестатистического CDS и вот как он выглядит. Это бизнесмен, который применяет часть практик науки о данных, включая машинное обучение и искусственный интеллект, с целью открытия новых идей и создания прогностических моделей для улучшения результатов бизнеса», — пишет Гуалтьери.
Как стать CDS?
Работа с данными всегда отличалась особой сложностью, о чем хорошо осведомлены профессиональные аналитики, да и обучиться этой профессии очень непросто, поэтому это нужно делать планомерно и не переусердствовать. Помимо прочего следует получить представление о том, из чего состоит жизненный цикл данных. Он включает в себя сбор и подготовку данных, разработку функций, выбор алгоритма, обучение и оценку модели и, наконец, выводы и/или прогнозы.
Возможно, CDS даже придется научиться программировать на R или Python. В качестве альтернативы можно воспользоваться платформой RapidMiner, которая обеспечивает интегрированную среду для подготовки данных, машинного обучения, глубокого обучения, анализа текста и прогнозной аналитики, аналитическим облачным сервисом KNIME или другими подобными решениями, которые в противовес «жесткому» кодированию предлагают визуальные интерфейсы и интуитивно понятные модули, которыми можно легко оперировать.
Машинное обучение на службе CDS
Вряд ли было бы преувеличением утверждать, что CDS смогли бы работать с данными в отсутствие современных автоматизированных методов машинного обучения (AutoML) — именно они взяли на себя большую часть аспектов, необходимых для обработки массивов данных на всем их жизненном цикле. Такие AutoML-решения, как DataRobot, Driverless AI производства H2O.ai, Google Cloud AutoML, а также ряд других автоматизированных решений — сложные инструменты, которые укрывают самые сложные для понимания детали, связанные с техникой обработки данных, и позволяют CDS и — не исключено — людям без какого-либо опыта работы с информацией прикоснуться к анализу данных и создавать надежные модели машинного обучения.
Однако AutoML облегчит жизнь не только CDS, но и профессиональным аналитикам — автоматизация сэкономит время на этапе компиляции и разбора массивов данных, а также упростит другие трудоемкие процедуры, что повысит эффективность их работы. От применения AutoML есть еще один выгодополучатель — бизнес, которому приходится бороться с все возрастающим объемом информации, однако это приходится делать, чтобы не упустить ценные идеи и не отстать от конкурентов.
Гуалтьери определяет категорию софта типа AutoML следующим образом: «Это ПО, которое предоставляет командам аналитиков по корпоративным данным и/или CDS инструменты для обучения, развертывания и управления аналитическими выводами и моделями, которые в основном предназначены для автоматизации ключевых аспектов машинного обучения, включая разработку функций, выбор алгоритмов, оценку моделей и логики».