О современных методах обработки информации, которые становятся все более востребованными при решении традиционных и новых задач промышленной автоматизации, мы беседуем с директором департамента по работе с предприятиями ТЭК компании RedSys Павлом Мироновым.
Как ваша компания, будучи крупным российским системным интегратором, приходит к необходимости заниматься вопросами цифровой трансформации и предлагать заказчику тесно связанные с ней концепции и технологии?
Как и каждый поставщик мы вынуждены непрерывно совершенствовать собственную продукцию (в нашем случае — больше услуги), учитывая современные тенденции их формирования и конечно же спрос. Тот факт, что RedSys является интегратором информационных систем преимущественно у крупных корпоративных заказчиков в России, дополняет этот вполне универсальный тезис некоторыми нюансами. Наличие тенденций здесь как раз и означает внедрение принципов цифровой трансформации и, как следствие, использование небезызвестных методов получения и обработки данных. Думаю, нет особого смысла повторяться, говоря о важности таких концепций, как IoT, Machine Learning или Big Data. Их применение справедливо и в нашем случае, однако больше, наверное, интересны те типичные проблемы и практические шаги, которые, как правило, необходим предпринять в реальной практике. Следует подчеркнуть, что задачи приходится решать при наличии тех систем, подходов и методик, внедрение которых имело место ранее на крупных предприятиях и которые успешно используются и по сей день.
Можно ли на примере деятельности самой компании как-то описать историю появления современных технологий в бизнесе ваших заказчиков? Что в основном служит отправной точкой их применения?
Качественный скачок в применении технологий, по нашим наблюдениям, произошёл примерно в 2014 году, когда началось активное использование систем на основе искусственного интеллекта. Очень сильным стимулирующим фактором здесь явилось развитие аппаратных возможностей современной инфраструктуры вообще и массовое появление доступных графических ускорителей в частности. В силу особенностей алгоритмов ИИ они как раз сильно способствуют увеличению производительности соответствующих вычислений. Значительную роль сыграло широкое распространение датчиков сбора информации. Что касается программ и алгоритмов, то они существовали и раньше, однако именно в последнее время возможности их применения в тех или иных практических ситуациях были тщательно изучены и четко классифицированы. Кроме этого было написано много полезных библиотек и доступных учебных материалов. Примеры расширения подходов к решению промышленных задач за счет технологий искусственного интеллекта в целом известны. Это, скажем, предиктивная модель обслуживания оборудования, ассистирование водителю в управлении автомобилем, диагностика заболевания по томографическому снимку и многое другое. С точки зрения применения алгоритмов здесь все движется более-менее поступательно, естественно и стабильно.
Еще недавно под термином «бизнес-аналитика» в основном понималась отчетность и от функционирования соответствующих систем напрямую зависело качество управленческого решения, которое в конце концов принимал человек. Теперь же принятие примерно тех же решений мы все больше доверяем машине, и это в очень многих случаях приводит к повышению их качества. С точки зрения бизнес-задач это по сути и есть то самое поступательное и естественное движение, о котором я только что сказал. С технических же позиций мы здесь, конечно, имеем совершенно иные решения.
Менее очевидный на сегодняшний момент и соответственно более серьезный вопрос касается подготовки данных. Он в значительной степени как раз и порождается тем, что машинные алгоритмы самостоятельного принятия решений отличны от тех, которые эти решения подготавливали для человека (то есть от систем отчетности). И это действительно серьезная проблема.
Хотелось бы поговорить обо всем этом несколько подробнее. Для начала выделим проблему формирования самих ИТ-систем, обеспечивающих автоматизированное принятие решений. Вы говорите, что проблема эта стоит не столь остро, как вопрос подготовки данных, но тем не менее...
Как я уже сказал, количество и качество информационных материалов, посвященных проблемам искусственного интеллекта (а во многом именно об этом идет речь при автоматизации принятия решений), сейчас находятся на вполне достойном уровне. Инструментальные средства и программные библиотеки для формирования прикладных ИТ-систем тоже развиты. Так что работать есть с чем. Я считаю, что весьма значительная проблема сосредоточена в организационной плоскости. Если, к примеру, взять знакомую мне сферу обслуживания активов в нефтегазовой отрасли, то там системами моделирования (а на результатах их работы, как и на результатах отчетности, во многом строились основания для принятия бизнес-решений) традиционно занималась, скажем, компания Schlumberger. Вопросы подготовки данных и, в более общем случае, проблемы Data Management брали на себя другие компании. Например, IBM. Небезызвестная Schnieder Electric могла нести ответственность за сбор первичных данных, что тоже является непосредственной частью информационных решений в отрасли. Раньше такая разрозненная структура была если и не идеальной, то по крайней мере допустимой. Сегодня же для того, чтобы иметь возможность переходить к системам принятия решений без участия человека, необходимо формировать более тесно интегрированные ИТ-системы. Такие системы в условиях «новой автоматизации» никуда не исчезают, поэтому вся эта интеграция является в том числе и непосредственной задачей системного интегратора.
Далее существует вопрос кадрового обеспечения создания и эксплуатации систем автоматизированного принятия решений. В настоящее время он явно недооценен, а с профессиональной точки зрения во многих случаях даже еще и не осознан. Сейчас все говорят о пресловутых Data Scientists, хотя в обсуждаемой нами области присутствует еще множество позиций, без которых такой специалист вряд ли что-либо сделает в одиночку. Прежде всего нужен эксперт от бизнеса. С ним должен плотно работать инженер по знаниям. Необходим человек, который понимает происхождение информации, то есть как она попадает в систему. И только при поддержке этой группы можно говорить о том, что Data Scientists в состоянии выполнить свою основную задачу — переложить опыт эксперта в машинный алгоритм с нужными исходными данными.
Что вы могли бы сказать о проблеме подготовки данных?
Тезис о том, что количество информации, необходимой для принятия бизнес-решений, сегодня возрастает в десятки, а иногда и в сотни раз, является общеизвестным. Он уже хорошо осознан. Приводя опять-таки пример нефтегазовой отрасли, могу сказать, что если еще лет десять-пятнадцать назад мы контролировали текущее состояние скважины по трем-четырем параметрам, то теперь таких параметров более трехсот.
Куда менее осознанным является вопрос качества данных. Эта категория и раньше, прямо скажем, не была идеально проработана. Что называется, «на пальцах» все, конечно, понимали, что данные должны быть высокого качества, но методический подход к этому вопросу изучали не слишком тщательно. Где-то приходилось данные перепроверять вручную, чтобы в той же отчетности получить хотя бы правильные исходные цифры. Где-то сосредотачивались на том, чтобы в разных таблицах было одинаковое представление одного и того же значения, что, конечно, тоже важно.
Сейчас необходимость всего этого в целом остается, но понятие качества данных обрастает новыми важными нюансами. При больших, а вернее, огромных объемах информации не вся она может быть получена непосредственно. Но многопараметрическая оценка любой активности, которая, как правило, имеет место в случае больших данных, всегда позволит с определенной вероятностью восстановить нужные данные. Приведу элементарный пример: имея данные с автомобильного тахометра, который, как известно, показывает число оборотов двигателя, можно оценить текущую скорость автомобиля. Когда такое восстановление может быть целесообразно, в каких ситуациях прежде всего может возникнуть подобная необходимость, ответить на эти вопросы — задача бизнес-эксперта. Однако технологий сбора и подготовки данных это также напрямую касается. Так что это является предметом профессиональной совместной работы всего коллектива специалистов, о которых я говорил выше. Восстановление одних недостающих данных за счет других, имеющихся в наличии, возможно только со статистической вероятностью, которую, впрочем, в большинстве случаев вполне можно оценить количественно и объективно. Но все это опять-таки профессиональная работа. Так что здесь тоже требуется определенная, возможно, совершенно новая для компании культура работы с корпоративными данными.
Восстановление информации в свою очередь возможно не только за счет замещения одних данных другими, но и посредством обработки первичных данных. Если мы контролируем данные какого-либо объекта и в это время, скажем, имеют место посторонние шумы, то на выходе фильтра необходимо получить исходный полезный сигнал. И тут опять тот же конвейер: эксперт понимает, откуда, когда и какие шумы могут прийти. Data Engineer плотно работает с источниками данных, Data Scientists подбирает механизмы фильтрации и оценивает, насколько статистически значимы различия между восстановленным сигналом и тем, который мог быть получен, если бы никаких искажений в канале передачи вовсе не существовало. В результате мы не просто контролируем данные, мы улучшаем их качество.
Чем вам прежде всего приходится заниматься в проектах?
Первое, чем мы занимаемся, это как раз работа над повышением качества данных наших заказчиков. Надо сказать, что это могут быть очень разные задачи. Они могут быть связаны с эксплуатацией более классических, доставшихся нам от предшествующих эпох автоматизации, систем класса АСУТП. Но несмотря на всю общность проблематики, акценты при работе с данными здесь все более смещаются от «чистого» контроля к повышению качества получаемой информации, о чем мы уже подробно говорили.
Все чаще встречаются и относительно новые бизнес-сценарии, когда, например, необходимо понять степень усталости или эмоциональное состояние оператора, следящего за каким-либо процессом. Здесь мы тоже имеем исходные данные для последующего принятия решения. В этом случае уже по определению предполагается не только слежение за объектом (то есть за самим оператором), но и предсказание его поведения, поэтому расширение функций сбора и обработки данных за пределы чисто контрольных тут просто необходимо.
Надо сказать, что обозначенные задачи во многом являются формализацией и перенесением в электронное пространство того опыта, которым раньше обладал исключительно человек. Ведь специалист всегда мог понять, что АСУТП начинает, скажем, выдавать данные, свидетельствующие о неполадках. И что при этом надо проверить еще какие-то показания, хотя сигнал тревоги еще не звучит. Да и усталость оператора часто вполне заметна руководству.
Формализация процесса сбора первичной информации и повышения ее качества обуславливает важность второго направления, которым сейчас приходится активно заниматься. Это перенесение опыта человека в машину относительно принятия самих решений. Здесь я по сути говорю об известных методах искусственного интеллекта и машинного обучения. Просто пытаюсь делать это в терминах, которыми больше оперируют на практике.
Какие инструменты вы используйте в работе?
Компания RedSys существенно продвинулась в задачах контроля качества исходной информации, сделав этот процесс неотъемлемой частью нашей системы управления данными RSDATA. Любая цифровая информация, поступающая на вход интеграционного блока RSDATA, проходит через фильтр, где проверяются допустимые значения, корректность тренда данных, соответствие словарям.
Отдельная задача — непротиворечивость и корреляция данных. Для неструктурированных данных (документов) в рамках системы осуществляется форматно-логический контроль. В ближайшее время этот вид контроля будет существенно расширен за счет применения системы анализа естественного языка. Алгоритмы коррекции и восстановления данных у нас тоже реализованы. Реализованы в нашей системе и алгоритмы фильтрации, которая, как я уже говорил, очень востребована в условиях зашумления сигнала внешними источниками. В этом смысле использование функции так называемого вейвлет-анализа позволяет выделить полезную компоненту.
Что касается систем, обеспечивающих принятие решений, то мы, как правило, готовы использовать большинство алгоритмов из арсенала методов машинного обучения. Все они на сегодня достаточно известны.
ПОДГОТОВЛЕНО ITWEEK EXPERT