Продолжение. Начало см. PC Week/RE, № 32/2002, с. 20

    

Говорим на языке метаданных

Для функционирования CIF необходимо, чтобы все ее уровни были пронизаны единой семантической структурой, называемой метаданными (Metadata). В общем случае CWM и есть описание структуры метаданных. Часто, говоря о метаданных, имеют в виду тезаурус предметной области - словарь бизнес-терминов и их связей с физическими структурами, которые хранят соответствующие данные. В CWM бизнес-терминология представлена пакетом Business Nomenclature.

Метаданные обеспечивают централизованное управление семантическими объектами интеллектуальной инфраструктуры (ИИ), позволяют автоматизировать создание отчетов, осуществлять трансляцию запросов, сформулированных на естественных языках, в формальные языки и согласовывать данные, передаваемые между уровнями ИИ. Метаданные крайне важны для обеспечения качества информации в хранилище данных.

Зная российскую практику управления, мы вправе не согласиться с Эриком Сперли, написавшим, что “решение не может быть более качественным, чем информация, на основании которой оно готовилось”. Тем не менее мы можем утверждать, что вероятность принятия качественного решения повышается с увеличением качества информации.

Ларри Инглиш, признанный авторитетв области качества данных, рассматривает три основных компонента качества информации: качество представления информации, качество информационного наполнения и качество информационной архитектуры.

Качество представления информации описывает доступность информации для пользователя. Качество контента определяет, насколько адекватно модель хозяйственной деятельности, которую содержит хранилище данных, отражает реальность. В связи с этим обычно рассматриваются методика выбора критериев качества, вопросы согласованности состояния различных многомерных кубов, отражающих всевозможные аспекты жизнедеятельности предприятия, и свойства внешней среды (например, профиль потенциального клиента).

Архитектура CIF: снизу вверх или сверху вниз?

Существует большое количество школ, исповедующих различные принципы, используемые при строительстве CIF и ее элементов.

В литературе часто рассматриваются два крайних подхода к построению CIF - подход Билла Инмона и Ральфа Кимбелла (www.rkimball.com) - еще одного основоположника концепции хранилищ данных и автора бестселлера “Data Warehouse Toolkit”. Реже упоминается “средний путь” Дугласа Хэкни и другие подходы.

В соответствии с подходом Билла Инмона общая семантическая структура и центральное хранилище данных - это основа CIF, которая должна быть разработана в первую очередь. Затем строится многоуровневая система витрин данных. Поэтому такой подход часто называют “сверху вниз” (Top Down approach).

Подход Ральфа Кимбелла предусматривает постепенное создание витрин данных и центрального хранилища, прорабатывая одну предметную область за другой. Сначала разрабатывается некоторый поднабор витрин данных для предметной области и оттачивается его семантическая структура. Лишь затем на основании уже отлаженных устойчивых элементов возводится следующая очередь хранилища. После этого поток данных переключают таким образом, чтобы сначала пополнялось хранилище, а затем - витрины данных. Этот подход называют “снизу вверх” (Bottom Up).

“Крайности” в позициях авторов обозначены скорее специальной прессой. И Билл Инмон, и Ральф Кимбелл гораздо более осмотрительны в высказываниях и безусловно дополняют друг друга.

Дуглас Хэкни в рамках своего подхода “объединенных структур” предлагает разделять центральное хранилище данных на несколько департаментов, каждый из которых отвечает за одну предметную область - HR, Finance, CRM.

От проблем к тенденциям

Различные подходы, как и волшебные сказки, учат не конкретным шагам, а тому, как думать, чего бояться и на что обращать внимание. Каждая практическая реализация аналитической инфраструктуры - это уникальный проект, руководитель которого ищет свой путь к истине. Он сталкивается с серьезными политическими, квалификационными и техническими проблемами, способными остановить проект.

К числу политических проблем часто относится агрессивное восприятие проекта со стороны отдельных руководителей. Ведь построение аналитической инфраструктуры приводит к перераспределению информационных потоков предприятия, часто связанных с вопросами власти и влияния на решения высших руководителей. Поэтому важно наличие высокопоставленного “спонсора” проекта, обеспечивающего его статус.

Критическими параметрами также являются квалификация специалистов, их авторитет и блестящее владение не только информационными технологиями, но и бизнес-спецификой предприятия. Квалификационные проблемы бывают вызваны тем, что построение хранилища данных, организация репозитория метаданных нередко заставляют глубоко погружаться в различные предметные области. Поэтому необходимо, чтобы спектр компетентности рабочей группы соответствовал всем затрагиваемым предметным областям. Порой эта проблема приводится в качестве аргумента для принятия подхода bottom-up, при котором можно ограничиться определенной предметной областью.

Технические проблемы зависят, как правило, от величины потока данных, поступающего в хранилище, количества источников оперативных данных, качества поступающей информации, степени актуальности информации в хранилище и др.

Мощность потока, поступающего в хранилище данных, может измеряться числом транзакций, информация о которых поступает в хранилище или ODS, количеством строко-документов и т. п.

Количество источников данных также может варьироваться в значительной степени - от единиц до нескольких десятков или даже сотен. Проблема большого числа источников данных стоит прежде всего перед крупными компаниями. Как правило, перед построением ODS или хранилища данных проводится инвентаризация источников. При этом вырабатываются стандартизованные протоколы или форматы файлов обмена данными, составляются спецификации изменений в приложениях оперативного уровня.

Немалым испытанием для проектов по созданию хранилищ данных является режим обновления информации. Еще совсем недавно самые смелые требования к актуальности информации касались ее обновления в течение нескольких дней или часов. Сегодня нередко приходится слышать о необходимости обновления в режиме реального времени. При этом данные, родившись в оперативных приложениях, должны немедленно становиться доступными в хранилище. Это настоящий вызов технологии трансформации данных. Однако уже сегодня компании, работающие на этом рынке, начинают предлагать решения для режима реального времени. Примером может служить продукт PowerCenter RT компании Informatica (informatica.com).

Обновление информации в этом режиме связано еще с одним прорывом, к которому готовится отрасль интеллектуальных технологий, - активными хранилищами данных. Активные хранилища данных (Active Data Warehouse - ADW) являются не только пассивным элементом, потребляющим информацию. Получая в реальном времени информацию о состоянии предприятия, они выполняют алгоритмы автоматического принятия решения и возвращают решение в оперативный уровень. При этом поставщиком информации может быть одно приложение оперативного уровня, а потребителем информации о сути решения - другое. Концепция ADW требует, чтобы хранилище данных содержало не просто аналитическую информацию о деятельности предприятия, а модель хозяйственной деятельности предприятия, адекватность которой будет определять качество генерируемых решений. Это объясняет повышенные требования к качеству данных в ADW.

Технология ADW позволяет в связях типа “процесс - процесс” (Process-to-Process, P2P) ввести модель хозяйственной деятельности в роли интеллектуального посредника. Это сделает всю информационную инфраструктуру более адаптивной и упростит управление изменениями (change management) за счет снижения количества P2P-связей.

Аналитические системы реального времени ADW приводят к сближению оперативного и аналитического уровней. В этом смысле важной и перспективной является концепция виртуального хранилища данных, в соответствии с которой интеллектуальная инфраструктура должна работать без процедур перегрузки данных. Но такой подход предъявляет крайне жесткие требования к семантической и технологической прозрачности системы. Он сложно реализуется в ситуации, типичной для западных компаний, где эксплуатируется большое число унаследованных приложений, работающих на различных платформах.

У российских компаний, на мой взгляд, благодаря отсутствию балласта в виде мэйнфреймов, приложений на Коболе и других ставших экзотикой инструментов имеется уникальная возможность срезать угол и эффективно использовать достижения интеллектуальных технологий. Но для этого надо задействовать собственный интеллект, которым мы пока, к счастью, не обделены.

К автору, генеральному директору фирмы “Алеф Консалтинг & Софт”, можно обратиться по адресу: evgeny@alef.ru.