Вадим Федоров
Эта статья написана по следам пресс-конференции, которую провели московское представительство компании IBM и российская фирма “Мегапьютер Интеллидженс”. На ней фирмы объявили о совместном продвижении на российский рынок инструментального ПО IBM Visual Warehouse для создания хранилищ данных и интеграции этого ПО с системой PolyAnalyst компании “Мегапьютер”.
ПО IBM Visual Warehouse - это пакет программных продуктов, предназначенный для решения всего комплекса задач по созданию, наполнению и использованию небольших специализированных хранилищ данных масштаба подразделения. По результатам исследования IDC, именно этот вид хранилищ, называемых также киосками данных (data mart), отличается наибольшим коэффициентом возврата инвестиций и скорейшим получением первых практически значимых результатов.
Создание хранилища Visual Warehouse
На пути в хранилище данные проходят три стадии обработки: извлечение из источников данных, консолидацию и агрегирование и собственно внесение в хранилище.
В IBM Visual Warehouse за извлечение исходных данных отвечают так называемые агенты, число которых не ограничено. Агенты - это разнообразные программы, которые под управлением команд, поступающих из хранилища, извлекают данные из своего источника, унифицируют их и передают в хранилище. В принципе агенты могут извлекать практически любые данные, в том числе из систем обработки транзакций, различных реляционных СУБД (DB2, Oracle, Informix, Sybase), файловых систем, из БД Notes, связующего ПО (например, MQ Series) и Интернет. Агенты могут работать с самыми разными источниками за счет использования своих специфических интерфейсов прикладного программирования (API) и возможности работы на всех платформах. Жестко регламентирован только протокол взаимодействия агентов с хранилищем, что позволяет хранилищу единообразно управлять всеми агентами и получать от них исходные данные.
В хранилище полученные от агентов данные подвергаются консолидации и ряду преобразований, цель которых - проверка этой информации, удаление из нее противоречий и лишних деталей и придание ей формы, оптимизированной для выполнения аналитических запросов. В IBM Visual Warehouse такой формой являются бизнес-представления (БП).
С точки зрения пользователя хранилища, БП - это обычная таблица БД, но с точки зрения описания структуры хранилища и управления процессом его заполнения данными БП выступает как гораздо более сложный объект. Каждое БП имеет свои источники данных, правила их консолидации, проверки и агрегирования, расписание и условия заполнения. Источниками данных БП могут служить другие БП, что позволяет, например, создавать в хранилище иерархию все более обобщенных представлений данных.
IBM Visual Warehouse позволяет создавать чрезвычайно сложные БП и описывать их взаимосвязи без привычного программирования. В большинстве случаев можно полностью охарактеризовать БП, заполнив ряд хорошо продуманных бланков, причем в хранилище могут сосуществовать несколько редакций БП. Сложные описания можно целиком передавать из хранилища в хранилище, например, для объединения нескольких первоначально не связанных специализированных киосков данных, созданных разными подразделениями компании.
Совокупность правил извлечения, проверки и преобразования данных называется метаданными. В текущей версии IBM Visual Warehouse их можно хранить в БД DB2 Common Server или DB2 Universal Database для Windows NT. Управление метаданными сосредоточено в программе, работающей на платформе Windows NT.
Собственно данные хранилища размещаются в обычных таблицах СУБД IBM DB2, причем использовать можно любую версию DB2, от Universal Database для платформ Windows NT и OS/2 до версий для Unix, AS/400 и мэйнфреймов IBM. Это обеспечивает высокую масштабируемость и позволяет подбирать оптимальную мощность сервера данных. В комплект поставки IBM Visual Warehouse входит DB2 Common Server 2. Выбирая платформу для размещения данных хранилища, стоит учесть, что в более позднюю версию DB2 Universal Database 5 для Windows NT и OS/2 внесен ряд важных усовершенствований, повышающих эффективность выполнения типичных запросов к хранилищам данных.
Использование хранилища Visual Warehouse
Хранить данные в DB2 удобно еще и потому, что извлекать их из этой БД может практически любой генератор отчетов, электронная таблица, статистический пакет или другой инструмент анализа данных. Для этой цели в комплект поставки включено ПО Lotus Approach, простой и мощный инструмент создания отчетов с развитыми средствами деловой графики. ПО Lotus Approach способно взаимодействовать с Интернет и с ПО Lotus Notes, что упрощает распространение отчетов и координацию работы с ними.
Формулируя запрос, можно воспользоваться именами, под которыми БП и их части известны серверу DB2. Но эти имена, присвоенные программой управления метаданными, не особенно удобны. Вместе с Visual Warehouse поставляется ПО IBM Data Guides, позволяющее представить структуру хранилища в удобной для конечного пользователя форме. Справочник Data Guides позволяет легко находить нужные части хранилища и формировать соответствующие запросы благодаря осмысленным названиям и ясным графическим представлениям. Гораздо легче формулировать запросы к хранилищу, опираясь на информацию из Data Guides, чем непосредственно на метаданные.
Ценность хранилищ данных, естественно, зависит от возможностей ПО, применяемого для анализа извлеченных данных. Генераторы отчетов, подобные Lotus Approach, способны лишь сформировать и представить в удобном виде сводки данных. Но выявление закономерностей, скрытых в накопленных данных, может быть гораздо более результативным, если оно осуществляется с помощью специализированного ПО для “раскопок данных” (data mining).
IBM - один из основных поставщиков такого ПО, известного под названием Intelligent Data Miner. Но это ПО, хотя и может работать с хранилищами Visual Warehouse, в первую очередь ориентировано на корпоративные хранилища данных и соответственно имеет более высокую цену.
Чтобы дать заказчикам сбалансированное по ценам решение для интеллектуального анализа данных в хранилищах Visual Warehouse, IBM будет продвигать это ПО на российский рынок в сочетании с ПО PolyAnalyst российской компании “Мегапьютер Интеллидженс”.
PolyAnalyst -российское ПО data mining
PolyAnalyst - это единственная российская разработка в области data mining, основанная на оригинальных методах анализа данных, разработанных компанией “Мегапьютер Интеллидженс”. Система позволяет выявлять нелинейные зависимости одной переменной от множества факторов, а также проводить классификацию многомерных данных. Решение обеих задач основано на общих алгоритмах автоматического синтеза и селекции моделей, работа которых не требует какой-либо априорной информации о характере данных. Для оценки статистической значимости выводов используются в основном непараметрические методы, не опирающиеся на предположения о характере распределения величин ошибок. PolyAnalyst также позволяет выявлять и изучать влияние “выбросов”, т. е. наблюдений, сильно отличающихся от основной совокупности и существенно влияющих на статистические выводы.
ПО PolyAnalyst обладает еще одной особенностью, которую, вероятно, высоко оценят аналитики. В отличие от нейронных сетей, широко используемых при “раскопках данных”, модели, построенные программой PolyAnalyst, допускают содержательную интерпретацию. В сочетании интерпретируемость моделей, непараметрические методы оценки значимости, анализ “выбросов” и средства визуализации повышают прогностическую ценность моделей и делают работу аналитика более содержательной.
Система PolyAnalyst выполнена в архитектуре клиент-сервер. Математические модули выделены в так называемый PolyAnalyst Knowledge Server сервер, осуществляющий аналитическую обработку данных по запросам от нескольких клиентов. Клиентское ПО позволяет производить манипуляции с данными, запускать математические модули, визуализировать результаты исследований, формировать отчеты. Клиентское ПО PolyAnalyst работает на различных платформах, а серверное - в Windows NT.
PolyAnalyst и Visual Warehouse
Система PolyAnalyst способна извлекать данные из хранилищ Visual Warehouse и записывать в хранилище не только результаты расчетов, но и обнаруженные модели. Последние могут быть использованы хранилищем для автоматического синтеза расчетных данных, причем для этого система PolyAnalyst уже не нужна. В недалеком будущем компания “Мегапьютер” планирует повысить степень интеграции, встроив в PolyAnalyst средства непосредственного управления метаданными хранилища Visual Warehouse.
В альянсе с IBM роль компании “Мегапьютер” не сводится к поставкам ПО.
После того как хранилище данных создано и правильно настроено, оно может работать полностью автоматически. Но даже при использовании мощных интегрированных инструментов IBM Visual Warehouse создание хранилища - это длительный и сложный процесс. Необходимо сконструировать модель предметной области, изучить оперативные информационные системы, разработать процедуры их консолидации, проверки и агрегирования, настроить систему, оптимизировать ее и наполнить данными, правильно распределить части хранилища по узлам сети, помочь в получении и интерпретации первых результатов. Большинству заказчиков удобнее решать эти проблемы, привлекая консультантов. В качестве такого консультанта IBM рекомендует своим российским клиентам, создающим хранилища данных Visual Warehouse, компанию “Мегапьютер Интеллидженс”.
В заключение следует отметить, что тандем двух продуктов представляет собой недорогое в своем классе и одновременно мощное решение для платформы Microsoft Windows NT.
Телефоны и адреса в Интернет: московского представительства IBM - (095) 940-2000, компании “Мегапьютер Интеллидженс” - (095) 951-8079, megaputer@glas.apc.org.
Осуществление перехода
Вы готовы к переходу из хаоса киосков данных к управляемой архитектуре в масштабе предприятия? Ниже вы найдете описание четырех рекомендуемых подходов к этому процессу.
1. Используйте во всех киосках данных одну размерность. Это означает, что вам придется вернуться назад и изменить таблицы и кубы киосков данных таким образом, чтобы все они применяли одну размерность. Конечно, это не позволит создать единый киоск данных в масштабе предприятия, но вы положите начало стандартизации данных.
2. Разработайте модель хранилища данных и переведите на нее все киоски. Выйдите за пределы стандартных размерностей, описывающих общие сводки данных и их источники. Добиться согласия всех подразделений будет нелегко. Постарайтесь начать с одной тематической области, а затем переходите к другим. Когда вам удастся внедрить общую модель данных во всех киосках, вернитесь назад и смените программы получения данных, что позволит впоследствии приступить к интеграции программ извлечения.
3. Вернитесь назад и постройте хранилище данных в масштабе предприятия, затем переведите киоски на новую общую модель и архитектуру данных. Здесь есть два пути. Вы можете поочередно переводить на новую архитектуру тематические области киосков данных либо весь киоск целиком.
4. Внедрите модель и архитектуру данных в масштабе всего предприятия, а затем добейтесь, чтобы новые киоски данных полностью соответствовали им. Со временем новых киосков данных будет гораздо больше, чем старых, разрозненных. Каждый раз, когда пользователь обратится к вам с просьбой провести капитальное обслуживание своего старого киоска или его модернизацию, требуйте перехода на новую модель предприятия.
Источник: фирма Intelligent Solutions.