В связи с непрерывным притоком новой информации в хранилища, компании привлекают пользователей к контролю качества их данных
Розмари Кафассо тив Кох, руководитель службы стратегического планирования и маркетинговых исследований фирмы Sega of America (Редвуд-Сити, шт. Калифорния), не мог представить, что увольнение администратора базы данных в связи с переходом на другую работу, приведет его в паническое состояние. В течение шести недель, пока он интервьюировал новых кандидатов на эту должность, постоянно возникали грубые несоответствия информации в базе данных корпорации Oracle. Кох выявил случай, когда данные о сбыте в течение отдельных периодов финансового года вводились неправильно.
Тогда он решил, что в первую очередь необходимо принять на работу главного аналитика, ответственного именно за качество информации. Кох говорит: "Я могу осуществлять выборочный контроль, а он будет отвечать за всю информацию в целом".
Фирма Sega пополнила ряды компаний, выделяющих специальных сотрудников, которые должны обеспечить контроль качества информации в хранилищах данных. Поскольку информация перестала быть статичной, компании, аналогичные Sega, оказались лицом к лицу с непрерывным потоком новых данных, а также с новыми типами данных. Рич Финкельштейн, президент фирмы Performance Computing (Чикаго), являющийся также консультантом по базам данных, говорит: "Невозможно предотвратить проникновение искаженной информации, когда приходится следить за правильным ходом такого количества вещей, что-то обязательно идет не так".
Для многих компаний ключевым вопросом является стоимость. Они тратят тысячи долларов и расходуют сотни часов рабочего времени на проверку и очистку данных перед их загрузкой в хранилище. В то же время компании часто забывают учесть в своем бюджете расходы на контроль качества данных после того, как хранилище начинает функционировать. Поскольку финансирование ИТ ограничено, многие отделы не могут выделить специального сотрудника для соответствующего контроля.
Роберт Чин, старший менеджер по информатизации (CIO) фирмы Healthsource (Хуксетт, шт. Нью-Гемпшир), говорит: "Было бы здорово иметь сотрудников, выполняющих только эту задачу. Но это роскошь, и с учетом всех наших потребностей мы здесь не особенно сильно нажимаем".
Двойные обязанности
В результате компании стремятся совместить ответственность за качество данных с другими должностными обязанностями. Например, как и в компании Sega новый специалист по качеству данных будет отвечать также за ввод данных из разных источников, составление отчетов и, наконец, прогнозирование.
Аналитики полагают, что компании должны как минимум организовать своих пользователей на выполнение некоторой части работы по контролю за качеством. Именно они, а не разработчики информационных систем (ИС) имеют больше возможности понять, а следовательно, выявить производственные причины, по которым появляется бессмысленная или просто неверная информация.
Джон Паркинсон, директор по исследованию новых технологий компании Ernst & Young в Далласе, рекомендует всем компаниям проводить диагностическое тестирование своих хранилищ. Для этого необходимо установить ряд стандартов качества данных, позволяющих определить, лежит ли информация в пределах допустимого в данном бизнесе.
Паркинсон объясняет: "Регулярно проверяя 1% данных в хранилище, можно прогнозировать качество информации в целом".
Коллективная работа
Учитывая тяжелые последствия, к которым может привести негодная информация, некоторые компании разрабатывают формальную процедуру контроля качества и выделяют специальную группу для управления этим процессом. В фирме Pacificare Health Systems (Сайпрес, шт. Калифорния) данная задача возложена на специальный комитет. Совет, состоящий из 11 так называемых "управляющих данными" со стороны бизнеса, начал действовать в июне этого года и рассматривает все вопросы и проблемы, связанные с качеством хранилища. Джерри Сильва, менеджер по разработке, рассказал, что их функции весьма разнообразны - от выявления источника ошибки в данных до предложений по новым методам ввода данных для повышения согласованности пользовательской информации.
"У нас функционирует несколько систем, которые мы приобретали в разное время, и все они достраивались", - сообщил Сильва. Поскольку данные в хранилище поступают из всех этих систем, "несогласованность просто неизбежна".
Не имея возможности внедрить формальную процедуру, такие компании, как Healthsource, практикуют подходящий для каждого конкретного случая подход к проблеме качества. Защищая качество данных, Чин строит две линии обороны. ИС решает эту проблему с точки зрения производства, а бизнес-аналитики - самые активные пользователи хранилища - выявляют наиболее опасные ошибки в данных, т. к., по словам Чина, "они знают, какая ошибка может оказаться роковой".
Фирма Healthsource не формализовала процедуру контроля качества данных, поскольку у нее очень много других незавершенных проектов. В то же время предполагается, что аналитики будут выявлять ошибки, хотя официальные ревизии или выборочные проверки не входят в их должностные обязанности.
По мнению Чина, система, судя по всему, работает. Чаще всего бизнес-аналитик наталкивается на бессмысленную информацию, помечает эти данные и предлагает способы решения проблемы.
Чин считает, что в случае возникновения ошибки "именно их производство будет сорвано, поэтому они и должны решать эту проблему". "В некоторых случаях аналитики доводят решение проблемы до логического завершения, а иногда передают ее кому-нибудь другому", - говорит Чин.
Тяжелые удары
По мнению аналитиков, с какой бы стороны компания ни подходила к данному вопросу, нежелательно, чтобы в необходимости контроля качества приходилось убеждаться на собственном опыте. Вот что произошло в подразделении по управлению поставками корпорации AT&T. "Во время недавней реорганизации несколько штатных работников администрации, которые неофициально взяли на себя функции "управляющих данными" для хранилища информации о поставщиках и выполняли их регулярно, были переведены в другое подразделение", - вспоминает Стив Пейдж, старший технический служащий в Гринсборо (шт. Северная Каролина).
Вскоре после того как они ушли, кто-то из руководства AT&T заметил ошибки во время анализа информации при помощи системы поддержки принятия решений. Ошибки состояли в том, что коды, присвоенные новым поставщикам, совпали с кодами поставщиков, уже занесенных в хранилище, построенное на СУБД Sybase.
Старые административные кадры работали с информацией о поставщиках в течение многих лет. Благодаря этому для них не составляло труда заметить ошибку.
В настоящее время команда Пейджа старается срочно подготовить из числа сотрудников ИС новую группу поддержки, которая взяла бы на себя роль "управляющих данными". "Нам еще многому надо учиться", - говорит он, - необходимо установить процедуры проверок, чтобы быть уверенным в том, что данные находятся под контролем".
Розмари Кафассо
Фирма Healthsource (Хуксетт, шт. Нью-Гемпшир)
Инструменты создания хранилищ: Хранилище Redbrick Systems.
Стоимость проекта: Примерно
2 млн. долл.
Производственные задачи: Измерение различных показателей для бизнеса, включая конкурентный прессинг, тенденции рынка и демографические показатели.
Стратегия контроля качества: Предполагается, что бизнес-аналитики должны выявлять ошибки и либо самостоятельно решать проблему, либо передавать ее другому сотруднику.
Дата начала работы системы: 1994 г.
Число пользователей: 200.
PacifiCare®
Health Systems
Фирма Pacificare Health Systems (Сайпрес, шт. Калифорния)
Инструменты создания хранилищ: Средства разработки фирмы Holistic Systems и СУБД корпорации Oracle. Рассматривается также пакет Integrity фирмы Vality Technology, инструмент для проверки достоверности данных, который поможет в контроле качества данных.
Стоимость проекта: От 5 до 7 млн. долл. в течение следующих пяти лет.
Производственные задачи: Интегрировать существующие в нескольких базах данные в единый информационный архив для более эффективного междисциплинарного использования информации.
Стратегия контроля качества:
Комитет из 11 управляющих рассматривает проблемы и дискуссионные вопросы в связи с данными и разрешает их.
Дата начала работы системы: Апрель1996 г.
Число пользователей:
300 к октябрю 1996 г.