Подготовка данных — это ключевая фоновая функция, но она может быть и критически важной. О том, как CIO «продать» ее руководству, на портале InformationWeek рассказывает Мэри Шеклет, президент консалтинговой компании Transworld Data.
В начале этого года один знакомый ИТ-специалист пришел на ежегодный медосмотр, и его врач-терапевт обнаружил необычное сердцебиение. Немедленно привезли аппарат ЭКГ, и ему сняли кардиограмму прямо в кабинете. Через несколько дней он отправился в то же учреждение, чтобы кардиологическое отделение могло провести стресс-тест. Кардиологи привезли аппарат ЭКГ, и он спросил: «Подождите, мне только что делали ЭКГ, несколько дней назад. Разве у вас нет этой записи?». Кардиолог ответил «да», но, несмотря на то что у кардиологов были результаты ЭКГ из кабинета его врача-терапевта, они хотели провести свой собственный тест.
Результат оказался фантастическим: сердце моего друга оказалось в норме. Когда этот человек поделился со мной своей историей, мы оба задумались, почему кардиологическое отделение настаивало на проведении собственной ЭКГ. Мы предположили, что они просто не доверяли данным, которые у них уже были.
Это знакомая история, с которой столкнулись многие CIO после начала реализации инициатив по цифровизации: что делать и как развивать цифровую грамотность пользователей, если вы не доверяете данным?
Рынок тоже это знает. Именно поэтому существует бесчисленное множество предложений по инструментам подготовки и очистки данных, которые их извлекают, преобразуют и загружают (ETL), превращая их в качественные данные, которые затем помещаются в централизованные репозитории данных, которыми могут пользоваться все желающие.
Звучит неплохо, но насколько легко реализовать подготовку данных на практике?
Два года назад автор Harvard Business Review писал: «Компании работают над тем, чтобы стать более ориентированными на данные, уже много лет, но результаты неоднозначны. Эти усилия в организациях растягиваются во времени, и упорство, стойкость, исполнение и неустанное стремление использовать данные для принятия более обоснованных бизнес-решений — вот что отличает те компании, которые преуспевают, от тех, которые продолжают бороться со сложностями. Но если миссия может оставаться неизменной, то детали меняются». Далее он отметил, что только 26,5% опрошенных организаций сообщили, что создали организацию, ориентированную на данные, а 91,9% руководителей заявили, что изменения в культуре являются препятствием для перехода к управлению на основе данных.
Для CIO эти изменения и проблемы становятся наиболее очевидными, когда наступает время составления бюджета. Как можно оправдать крупные инвестиции в персонал, инструменты для очистки и подготовки данных, если это все «бэк-офисная» работа, от которой никто не видит прямой выгоды?
Это сложно. И большинство CIO и специалистов по работе с данными обнаружили, что обосновать крупные инвестиции в подготовку данных как правило не удается. То есть это возможно, только если отсутствие точных, своевременных и актуальных данных не представляет собой настолько большой риск для корпоративных систем, что без этого не обойтись.
Больницы и другие медицинские учреждения не могут позволить себе иметь искаженные или неточные данные, если они используют искусственный интеллект или аналитику для выявления возможных причин того или иного заболевания. Это также относится к сценариям, когда ИИ используется для выявления лучших методов лечения определенного типа рака или когда необходимо проверить и убедиться в достоверности результатов кардиологических исследований.
Авиадиспетчеры не могут позволить себе иметь неточную информацию о схемах полетов, ситуации с воздушным движением на маршруте, доступности взлетно-посадочных полос или текущих погодных условиях. Электроэнергетическим компаниям необходима актуальная информация о надежности их сети распределения электроэнергии и способности переключиться на другие источники в случае стихийного бедствия или отключения.
Все это — примеры критически важных, основанных на данных сценариев использования, которые требуют не что иное, как точные, актуальные, полные и своевременные данные.
CIO могут получить финансирование и поддержку деятельности по очистке и подготовке данных, если свяжут то, что обычно воспринимается как рутинная работа с данными, с разработкой критически важных систем, которые будут успешными только при наличии хороших данных.
Отличная лакмусовая бумажка для предложения по подготовке данных — опробовать его на неформальных встречах или даже в презентации для генерального директора и совета директоров, чтобы оценить их реакцию. Если подготовка данных явно необходима для такого приложения, как ИИ для диагностики или лечения рака, предложение будет одобрено, если только не возникнет проблем с доступностью бюджета как на подготовку данных, так и на саму систему.
Тогда же следует объяснить, почему подготовка данных может стать постоянной задачей по мере развития системы.
В качестве примера можно привести одну европейскую медицинскую клинику, которая начинала с системы диагностики и лечения рака на базе ИИ, анализировавшей все данные о пациентах, доступные из национальных источников данных. Захотев расширить базу данных о пациентах, клиника решила расширить поток данных о пациентах из всех европейских стран. Для расширения базы данных потребовалось проверять, очищать, форматировать и загружать поступающие данные из каждого нового источника в центральный репозиторий данных клиники, чтобы система ИИ могла обрабатывать достоверные и качественные данные.
Существует множество примеров, когда данные в каком-то приложении необходимо увеличить или расширить, чтобы они стали полезными, и требуется дополнительная подготовка данных. Именно в таких случаях лучше всего применять подготовку данных, поскольку качественные данные закладывают основу доверия к критически важным системам, и все в бизнесе понимают, почему они критически важны.