Всплеск объемов данных, поступающих сегодня в организации, требует, чтобы инструменты исследования данных полностью «понимали» информацию. Портал TechTarget опросил специалистов по данным, какие инструменты они используют.
Данные и аналитика питают цифровую трансформацию и революционные преобразования. И единственный способ для предприятий сделать это питание высококалорийным заключается в том, чтобы вооружить своих статистиков, математиков и бизнес-аналитиков адекватными инструментами для извлечения знаний из постоянно растущих объемов корпоративных данных.
Независимо от того, предназначены они для прямого статистического анализа, машинного обучения или визуализации, мощные инструменты совершенно необходимы для формирования управляемой данными культуры бизнеса.
Опрошенные специалисты по данным из разных отраслей наиболее часто называли следующие пять инструментов.
1. Python
Python, будучи программным средством реализации алгоритмов на заказ, является основным языком для многих специалистов по данным. 65,6% респондентов недавнего опроса 2052 пользователей ПО для аналитики и исследования данных, проведенного порталом KDnuggets, назвали его своим главным инструментом.
«Мы используем Python как для исследования данных, так и в бэкэнд-задачах, что обеспечивает нам быструю разработку и развертывание модели машинного обучения, — сказал ведущий специалист по данным фирмы Cindicator Александр Осипенко. — У нас он также играет большую роль в обеспечении безопасности используемых инструментов».
Кэти Мэлоун, руководитель исследовательской команды специалистов по данным в Civis Analytics, сообщила, что выбрала Python в качестве инструмента исследования данных, еще занимаясь физикой элементарных частиц, и продолжает использовать его в мире бизнеса. Для нее одним из больших достоинств Python является его обширная открытая экосистема, которая предоставила ей доступ к самым разнообразным библиотекам, помогающим решать специфические проблемы аналитики. «Сложилось очень и очень динамичное Open Source-сообщество, которые используют Python для решения интересных задач исследования данных», — сказала она.
С ней согласна директор по инновациям и ведущий специалист по данным компании Wovenware Лесли Де Хесус, которая активно применяет библиотеки Python. «Мы используем библиотеки Python, включая Scrapy, для извлечения данных из Интернета и загрузки их во фреймы для анализа, — поведала она. — И мы используем такие библиотеки Python, как Pandas и NumPy, для анализа данных и манипулирования матрицами. Обе они помогают быстрее создавать код, а NumPy позволяет применять сложные функции трансляции».
Руководитель подразделения исследования данных и инноваций в Tiger Analytics Нираньян Кришнан пояснил, что Python может использоваться в разнообразных сценариях. «Мы успешно развернули созданные с помощью Python модели данных для оптимизации маркетинговых кампаний с прямым обращением к клиенту, страхования жизни и совершенствования торгов в реальном времени при продаже онлайн-рекламы», — рассказал он.
По его словам, очевидный недостаток Python в том, что он требует написания кода, хорошего знания программирования и анализа. «Однако Knime и Alteryx представляют собой отличные альтернативы для создания систем с минимальным программированием и могут применяться неспециалистами по данным и бизнес-аналитиками», — добавил Кришнан.
2. R
Еще один язык программирования, который любят многие специалисты по данным. Он несколько проще, чем Python, и больше ориентирован на работу с данными. В опросе, проведенном KDnuggets, он оказался на третьем месте (48,5%).
По мнению Мэлоун, R обладает очень развитыми возможностями машинного обучения и статистики, и ее команда часто использует его дополнение к Python.
«Все зависит от контекста. Мы полиглоты, поэтому любим оба языка, — призналась она. — Происхождение R несколько больше связано со статистикой и количественным анализом в общественных науках».
По мнению Джона Крона, главного специалиста по данным из компании Untapt, R является основным инструментом изучения данных. «Я могу быстро увидеть сводные статистические данные, такие как среднее, медиана и квартили, быстро строить различные графы и создавать тестовые наборы данных, которые легко совместно использовать и экспортировать в формат CSV», — пояснил он.
3. Jupyter Notebook
Ради визуализации данных и обмена ими многие специалисты по данным включат в свой список инструментов Jupyter Notebook.
«Jupyter Notebook поддерживает R и Python и имеет прекрасные библиотеки для поддержки доступа к данным и их визуализации, — считает вице-президент HackerRank по данным Софус Макскасси. — Кроме того, данный инструмент позволяет легко экспортировать рабочие журналы для презентаций и становится стандартом в исследовании данных».
Гибкость Jupyter Notebook при использовании наиболее популярных библиотек для исследования данных является достоинством в глазах Майкла Голуба, старшего вице-президента Anexinet по цифровым и аналитическим сервисам. Он сообщил, что для его команды Jupyter Notebook стал любимой средой коллективной разработки: «Это наш главный инструмент коллективной работы над проектами в области исследования данных, и он очень полезен при участии в начинаниях, требующих обучения».
По словам Крона, Jupyter Notebook представляет собой прекрасный инструмент для интерактивного прототипирования моделей. «Мы применяем Jupyter Notebooks при написании кода прототипа, а также при распечатке наших таблиц данных, сводных показателей и диаграмм», — сообщил он.
4. Tableau
Tableau может стать хорошим мостом для преодоления пропасти, разделяющей специалистов по данным и бизнес-аналитиков. «Это фантастический инструмент для опытных специалистов по данным и новичков, — считает Пуджа Пандей из Entersoft Security. — Это инструмент быстрого вывода на приборную панель для визуализации знаний и аналитических данных с очень коротким сроком обучения».
По словам генерального директора QuotesAdvisor.com Софи Майлз, заслуживает похвалы скорость, с которой функции визуализации и составления отчетов Tableau предоставляют знания различным категориям пользователей. «Это самый быстрый инструмент визуализации и бизнес-аналитики, находящийся в процессе эволюции. Он быстро имплементируется, легко изучается и очень интуитивно понятен в использовании, — считает она. — С помощью Tableau различные подразделения компании могут адаптировать исчерпывающий отчет к своим нуждам».
Майлз пояснила, что число продиктованных конкретной ситуацией запросов комбинаций данных сократилось благодаря гибкости приборных панелей. Это повысило эффективность QuotesAdvisor.com на 95%. «Сотрудники больше времени занимаются умственным трудом, чем созданием последовательных отчетов», — сообщила она.
5. Keras
Как заявил Вэй Лин, главный специалист по данным офиса главного технолога Hitachi Vantara, чаще всего он использует Python, R и Keras. Python и R — по указанным выше причинам, а Keras — для глубокого обучения.
«Keras представляет собой написанную на Python библиотеку нейронной сети с открытым кодом для быстрого экспериментирования с глубокими нейронными сетями. Она может работать поверх TensorFlow, Microsoft Cognitive Toolkit или Theano», — сообщил Лин.
В Keras его особенно привлекает многомерное сопоставление с шаблоном. В качестве примера он привел обработку изображений и естественного языка и поддержку хорошо зарекомендовавших себя аналитических моделей глубокого обучения, включая сверточные нейронные сети и кратковременную память.
По словам Осипенко, большим достоинством Keras является колоссальная экономия времени: «Главный критерий добавления нового инструмента — насколько он может облегчить жизнь специалиста по данным. Примером служит Keras, высокоуровневая оболочка с открытым кодом, способная намного ускорить процесс разработки нейронных сетей. Любой, кто создавал нейронные сети с помощью TensorFlow, поймет, о чем я говорю. И хотя Keras несовершенна, она способна изменить процесс разработки и сделать ваш код гораздо более читаемым для других разработчиков».