Лоуренс Арагон

 

Низкое качество данных может испортить все. Поэтому отделы ИТ должны серьезно подойти к вопросу их чистоты

 

В каждом опросе низкое качество данных называется главной причиной, мешающей создавать их хранилища, но как только приходит время раскошелиться, сразу находятся более насущные нужды. Но неужели вы и вправду полагаете, что если игнорировать проблему, то она рассосется сама собой? И не мечтайте об этом! Итак, настало время натянуть старые болотные сапоги и вступить в самую грязь, в противном случае эту грязь размажут вам по физиономии, когда ваши труды по созданию хранилища данных стоимостью в 10 млн. долл. пойдут прахом из-за того, что никто не поверит этим самым данным.

       Дайнетт Таггарт из Hewlett-Packard: “Если в хранилище данных что-то не так, в этом всегда обвиняют информационные службы”

“Люди обычно думают, что главное  -  построение хранилища данных, а качество возникнет в ходе этого процесса само собой. Лица, которые принимают решения о финансировании, совершенно не заботятся о качестве данных”,  -  сказала Дайнетт Таггарт, руководитель программы по качеству и ценности данных из компании Hewlett-Packard (Пало-Альто, шт. Калифорния).

 

Эксперты и консультанты предупреждают, что из-за отсутствия подобной озабоченности некоторые хранилища могут поскользнуться на грязи. И если очистные бригады еще не работают в полную силу, то единственная причина состоит в том, что большинство компаний на пути создания хранилищ данных продвинулись еще недостаточно далеко. Таково мнение эксперта по созданию хранилищ Дуга Хэкни, президента компании Enterprise Group (Гудзон, шт. Висконсин). “Посмотрите, что будет через год-полтора”,  -  говорит он.

 

Одна компания, которую Хэкни не стал называть, потратила на свое хранилище пять лет и 15 млн. долл.  -  только лишь для того, чтобы видеть его бездействующим из-за грязных данных. “Последние полтора года они пытались очистить данные,  -  рассказал он.  -  Показатель использования хранилища равен нулю, потому что его содержимому никто не доверяет... И это повлекло за собой серьезные последствия”.

 

Он имел в виду увольнения людей. И наиболее уязвимы в такой ситуации именно сотрудники ИТ-отделов. Таггарт подчеркивает, что грязные данные могут быть созданы в бизнес-подразделениях, но обвинят во всем информационные службы (ИС), потому что именно они построили хранилище. Уже этого достаточно для того, чтобы ИТ-менеджеры вообще отказывались от проектов по созданию хранилищ. Однако еще не все потеряно. Есть много способов наведения чистоты, в частности создание программ-консультантов, а самое главное  -  бесплатные советы коллег-руководителей. Попробуем извлечь уроки из опыта четырех крупных компаний, создавших хранилища данных.

 

Программа сертификации

 

Хранилище данных National Association of Securities Dealers (Национальная ассоциация маклеров ценных бумаг, Роквилль, шт. Мэриленд) имеет объем 1,5 Гб и является одним из самых больших в мире. Сюда собираются сведения о котировках, сделках, векселях, а также другая биржевая информация, поступающая от NASDAQ (биржевого филиала NASD). “Чтобы выстоять в своей отрасли, мы должны быть уверены в том, что производим и потребляем информацию высокого качества”,  -  считает Тиба Солтени, исполнительный менеджер по качеству данных из NASD.

 

Решение, которое выбрала NASD,  -  это запущенная в марте 1996 г. программа сертификации качества данных, которая включает в себя семь элементов, в том числе институт распорядителей данными. Последнее означает, что после очистки данных определенные лица назначаются ответственными за поддержание их чистоты.

 

Разработка формальной программы подразумевает также создание центра, куда все сотрудники ИС и руководители бизнес-подразделений могут обратиться за помощью по вопросам чистоты данных. “Это устраняет ситуацию, когда каждому подразделению приходится зацикливаться на своих собственных процессах, искать свои инструменты и отдельно работать с консультантами”,  -  объяснила Солтени.

 

Самым главным в программе NASD является процесс сертификации качества данных, который включает этапы оценки, улучшения и сертификации. Оценка и улучшение  -  процессы, идущие рука об руку. Для доступа к таблицам своей реляционной базы данных NASD использует инструмент очистки Prism Quality Manager (прежнее название  -  QDB) фирмы Prism Solutions. Затем таблицы анализируются в соответствии с набором стандартных критериев, таких, как достоверность, полнота, соответствие бизнес-правилам и структурная целостность. При этом Prism Quality Manager определяет, какие записи ошибочны. Впоследствии NASD вносит поправки и сертифицирует таблицу.

 

Солтени рассказала, что в первом пилотном проекте, когда программа была использована для обработки таблицы, содержащей 20 млн. записей, NASD удалось сократить процент ошибок с 7 до 0,01. “Добившись успеха в пилотном проекте, мы планируем внедрить эту программу и в другие наши системы хранения данных”,  -  сообщила она.

Но на сертификации таблицы процесс не заканчивается. По словам Солтени, когда в таблицу заносятся новые данные, NASD сертифицирует ее повторно.

 

Трезвый реализм

 

Однако в деле очистки данных есть один неприятный момент. Отдел ИТ корпорации KFC (Луисвилл, шт. Кентукки) понял это на собственном опыте, когда ему пришлось написать программы очистки данных, чтобы обрабатывать информацию перед вводом ее в хранилище объемом 180 Гб. Несмотря на огромные старания, грязные данные все же просачивались. “Примерно первые полгода работы повторная очистка данных шла довольно интенсивно. Но сейчас, по прошествии 20 месяцев с начала проекта, у нас по-прежнему остаются проблемы, которые мы не можем устранить”,  -  посетовал Томас Роузинг, менеджер систем поддержки принятия решений из отдела ИТ.

 

Дело не в том, что KFC должна обнаруживать все проблемы в первый момент,  -  абсолютное совершенство недостижимо. Но отдел ИТ получил ясное представление о том, что очистка хранилища данных корпорации является непрерывным процессом, и это главное, что нужно было понять.

 

Одна из причин успеха корпорации в деле улавливания и очистки грязных данных заключается в том, что перед вводом в действие хранилища данных был выполнен трехмесячный пилотный проект. “Если бы мне пришлось давать кому-то совет, я настаивал бы на том, что концепция должна быть проверена,  -  говорит Роузинг.  -  Нам это дало начальное ускорение в решении некоторых наиболее существенных проблем и облегчило нашу жизнь в последующем, когда система была введена в строй полностью”.

 

В качестве пользователей в пилотном проекте участвовали два сотрудника из группы стратегического планирования KFC. И даже при таком малом числе пользователей отдел ИТ, по словам Роузинга, смог уменьшить количество ошибок “в экспоненциальной пропорции”, хотя назвать точную цифру он отказался.

 

Другой составляющей стратегии KFC является автоматизация, направленная на борьбу с одной из важнейших причин загрязнения данных  -  ошибками оператора. Оператор, вводящий данные, может случайно нажать не ту клавишу или ввести ряд бессмысленных цифр, потому что программа требует, чтобы все поля были заполнены.

 

Насколько это возможно, корпорация автоматизировала ввод данных. Например, раньше от периферийных служб поступало много ненадежных данных о новой системе безопасности, установленной в ресторанах. KFC сумела отказаться от старой методики, которая заключалась в получении отчетов от своих представителей. Хранилище данных было напрямую связано с бухгалтерской системой, собирающей всю информацию по недвижимости. Теперь, по словам Роузинга, данные безупречны и обновляются автоматически.

 

Когда речь заходит о процессах, используемых для поддержания чистоты в хранилище данных, всегда возникает болезненный вопрос о финансировании. Но если вам не удается провести через высшее руководство бюджет на инструменты очистки или дополнительный набор сотрудников, поговорите с начальником на его языке  -  языке долларов и центов. “Мы разработали методологию определения качества информации и ее стоимости, так как эти два понятия неразделимы”,  -  рассказала Таггарт из НР.

 

В одном из проектов группа Таггарт определила размеры потерь из-за срыва продаж по причине неправильно адресованных маркетинговых материалов. Они взяли статистическую выборку корреспонденции, отправленной в начале года, и попросили сотрудников бизнес-подразделений оценить стоимость потенциальных продаж, которые не состоялись из-за ошибочных данных. “В этом конкретном исследовании из общей стоимости грязных данных лишь 4% приходилось на непосредственные расходы, такие, как оплата материалов, печать и рассылка, а 96% составили потерянные доходы”,  -  рассказала Таггарт.

 

Она сообщила также, что в другом случае группа контроля качества данных сумела доказать подразделению сбыта и маркетинга, что стоимость данных их хранилища вырастет на целых 84%, если оно будет улучшено до состояния, “близкого к совершенству”. Таггарт не назвала точную цифру, однако сказала, что эффект от улучшения весьма значителен.

 

Если вы не уверены в том, как следует начать, попробуйте обратиться к консультантам. Даже такой голиаф, как НР, счел необходимым привлечь эксперта по качеству данных  -  Ларри Инглиша, президента фирмы Information Impact International (Брентвуд, шт. Теннесси). Он помог Таггарт разработать методологию контроля качества данных. “Ларри научил нас многому, что лежит в основе контроля качества данных, поделившись опытом из жизни других реальных компаний”,  -  вспоминает она. Но пригласить консультанта и ждать, что он сделает всю работу,  -  этого явно недостаточно. Таггарт подчеркивает, что сотрудники ИС и пользователи из бизнес-сектора должны работать с экспертом, чтобы передать ему свое знание конкретной ситуации. Она считает, что партнерство вообще имеет огромное значение, особенно партнерство с пользователями. Нельзя забывать, что ответственность за грязные данные всегда вешается на ИС. “Каждая сторона должна понимать ценность и уровень специальных знаний, которые привносит другая сторона. Если вы хотите достичь успеха, вы не должны оставлять без внимания ни одно звено”,  -  утверждает Таггарт. Например, отделу ИТ в одиночку трудно получить деньги на кампанию по улучшению качества данных. Нужно найти поддержку в бизнес-секторе, а это возможно лишь при непосредственном контакте с пользователями данных.

 

Быть в хороших отношениях с пользователями не менее важно и потому, что, когда ИС проводят аудит данных бизнес-подразделений, между обеими сторонами возникает раскол. Таггарт подчеркивает, что пользователи не должны ощущать себя объектом охоты на ведьм, нужно чтобы они были свободны в обсуждении вопросов качества данных. В противном случае возникают трения.

 

Пользователи не хотят, чтобы ответственность за проблемы возложили на них, поэтому они могут ставить под сомнение результаты проверки и неохотно давать информацию. “Если обнаруживаются проблемы, люди сразу становятся в позу обороны. Вы должны дать почувствовать, что изучая качество данных, не ставите целью показать, насколько оно низкое, но хотите понять, куда именно следует сделать инвестиции. Решающее значение имеет совместная работа сотрудников ИС с высшим руководством по созданию атмосферы открытости, где никого не наказывают за правду”,  -  сказала Таггарт.

 

Одна из ловушек, которой следует избегать любой ценой,  -  это погоня за абсолютным качеством. “Не рассчитывайте, что сможете сделать его совершенным”,  -  утверждает Майкл Скофилд, старший менеджер по архитектуре данных из компании Direct TV (Эль-Сегундо, шт. Калифорния). Самое важное  -  это понять, как будут использоваться данные и каков допустимый уровень ошибок. “Можно провести различные анализы бизнеса при количестве ошибок в вашей статистике плюс-минус один процент”,  -  говорит он. Взяв это за основу, вы можете затем ставить вопрос, допустим ли такой уровень ошибок в данном случае. Если вы делаете прямую рассылку для 10 000 заказчиков, это, по всей видимости, приемлемо. Но если вам нужно получить сведения от миллиона заказчиков, чтобы понять тенденции и учесть их в новой глобальной стратегии, то 10 000 неправильных записей исказят результаты.

 

Скофилд тоже считает, что к данным нужно относиться скептически. “Это имеет даже большее значение, чем инструмент, которым вы пользуетесь. Достаточно ли у вас воображения, чтобы представить себе все причины, которые могут привести к вводу ошибочных данных?”  -  спрашивает он.

 

Самой большой проблемой в конце концов может оказаться стереотипность мышления. Решение вопросов качества данных, видимо, всегда в той или иной форме связано с ломкой старых мыслительных схем  -  на уровне ИС или высшего руководства. Один поставщик инструментов для контроля качества данных заметил, что ИС имеют обыкновение “соблазняться мигающими лампочками технологии и не заботиться о данных”.

 

Конечно, это утверждение  -  своего рода самореклама, но во многом оно истинно. Руководители ИС должны отказаться от стереотипного мнения, будто заботиться надо лишь об объемах и скоростях. Угроза, что грязные данные сделают хранилище бесполезным, слишком реальна. А после того как дым развеется, грязь почти наверняка окажется на лице главы ИС.

По следам реальных расходов

 

В опросе, проведенном фирмой Market Perspectives среди 300 специалистов ИТ, которые в октябре 1997 г. приезжали в Финикс (шт. Аризона) на конференцию по хранилищам данных (Data Warehouse Conference), 60% опрошенных назвали качество данных очень важной или важной проблемой. Но догадайтесь: на какое место те же самые люди поставили приобретение инструментов контроля качества в списке из 13 сфер, куда они планируют вложить деньги в этом году?

 

1. Средства intranet и Internet для доступа к хранилищам данных  -  59%.

 

2. Программы составления запросов и отчетов  -  54%.

 

3. Структура хранилищ данных (логическая и физическая)  -  45%.

 

4. Сбор и составление данных карт  -  43%.

 

5. Инструменты и продукты для управления хранилищами  -  43%.

 

6. Многомерные инструменты и клиентские программы OLAP  -  41%.

 

7. Реляционные средства OLAP  -  40%.

 

8. Доставка данных (т. е. инструменты связности)  -  38%.

 

9. Реляционные СУБД  -  38%.

 

10. Инструменты контроля качества и согласованности данных  -  37%.

 

11. Инструменты анализа данных  -  36%.

 

12. Управляемые среды запросов  -  31%.

 

13. Каталоги бизнес-информации  -  21%.

 

Источник: фирма Market Perspectives, по заказу Meta Group