Инструменты могут меняться, а ошибки оставаться теми же. Синь Хэн, вице-президент по данным компании Punchh, рассказывает на портале InformationWeek о четырех наиболее распространенных ошибках, о которых следует знать тем, кто руководит специалистами по данным.
В 2019 г. компании, стремящиеся получить конкурентное преимущество, знать своих клиентов и тенденции развития, расширяют использование данных для принятии решений. Хороший специалист по данным является бесценным для компании, так или иначе представленной в Интернете. Он может обрабатывать сложную информацию и создавать алгоритмы машинного обучения.
Объем данных растет, а вместе с ним растет и количество навыков и усилий, необходимых для осуществления управляемых данными инициатив. Ошибки могут иметь тяжелые последствия. Инструменты меняются, а ошибки остаются прежними. Ниже приводятся рекомендации, которые позволят их идентифицировать и избегать.
1. Недостаточное знание программирования
Удивительно, как много людей полагают, будто наука о данных не имеет ничего общего с программированием. Основой науки о данных было и остается построение модели с помощью длинного скрипта. Качество скрипта определяет все — от масштабируемости до надежности модели, когда она начинает использоваться в производственных целях.
Отличный специалист по данным должен быть хорошим программистом. Я придерживаюсь такого правила: старший специалист по данным должен обладать навыками программирования на уровне среднего инженера-программиста, а специалист по данным среднего уровня — на уровне младшего инженера-программиста.
2. Отсутствие оборонительного мышления
В данном случае уместна поговорка «лучшее нападение — это хорошая защита». Специалистам по данным следует задаваться вопросом: насколько ошибочной может быть модель в худшем случае?
Единственная ошибка может повлечь для компании тяжелые финансовые и юридические последствия. Если не проверять и перепроверять код, руководствуясь оборонительным мышлением, в нем обязательно будут ошибки.
В машинном обучении применяются такие показатели производительности, как точность, среднеквадратичное отклонение и средняя абсолютная ошибка. Это средние величины, которые не заменяют оборонительного тестирования.
3. Непродуктивное использование времени, отводимого на очистку данных
Нередки случаи, когда специалисты тратят недели на рассмотрение данных, вместо того чтобы перейти к созданию ПО машинного обучения. Слишком много времени уделяется очистке данных. Задача создания сквозного потока данных игнорируется. Это характерно для специалистов по данным, которые являются физиками по образованию, в отличие от изучавших компьютерные науки.
Многие менеджеры проектов не уделяют достаточно внимания устранению многочисленных ошибок, поскольку к определенному сроку должны предъявить руководству компании результат работы.
4. Пустая трата времени на изучение индивидуальных моделей
Если слишком долго изучать отдельные модели, можно упустить из виду, как эти модели должны взаимодействовать. Динамическое ценообразование вполне может затронуть определение цен на размещение рекламы. Данный вопрос, безусловно, относится к компетенции старших специалистов по данным и их менеджеров.
Действия должны производиться над коллекциями данных. Специалист по данным способен помочь своей компании пройти через цифровую трансформацию, организовав мониторинг, тестирование и мощную аналитику, создав инфраструктуру машинного обучения. Это позволит усовершенствовать ведение бизнеса и решать проблемы. И в этом им необходимо содействовать.