ИНТЕГРАЦИЯ ДАННЫХ

Архитектура платформы управления контентом компании Documentum (www.documentum.com) *1 исторически базируется на использовании единого объектно-ориентированного хранилища данных. Объекты (в упрощенном варианте - документы) в нем состоят в общем случае из содержимого и их описания (метаданных). Само содержимое может храниться в различных источниках данных - например, в файловой системе или СУБД, но работа с ними выполняется через общую базу метаданных. Такая схема конечно же наиболее эффективна с точки зрения производительности обработки информации, но вызывает большие проблемы при необходимости использования неоднородных распределенных источников данных, что так характерно для современного этапа развития корпоративных компьютерных систем.

_____

*1. В октябре прошлого года компания Documentum была приобретена корпорацией EMC (см. PC Week/RE, N 40/2003, с. 1) и сейчас является подразделением последней, хотя и действует пока под собственной торговой маркой.

Отвечая на требования заказчиков и вызовы со стороны конкурентов (в частности, FileNET и Interwoven, которые активно предлагают федеративную модель работы с данными), Documentum объявила о намерении представить в ближайшем будущем - во II квартале нынешнего года - новое комплексное решение Documentum Virtual Repository. Его ключевым новым компонентом станет технология askOnce, приобретенная компанией в середине марта у корпорации Xerox.

Продажа Xerox такой актуальной технологии, как интеграция данных, может показаться довольно странной, но на самом деле в этом нет ничего удивительного. Ведь одним из направлений бизнеса Xerox уже несколько десятилетий является создание и продажа перспективных инструментов обработки данных. Вспомним хотя бы графический пользовательский интерфейс, мышь, локальные сети, лазерные принтеры, появившиеся впервые именно в исследовательских лабораториях Xerox и ставшие впоследствии стартовыми (startup) технологиями для Apple, Microsoft, 3Com, Adobe, HP и других нынешних мировых ИТ-лидеров. Вполне вероятно, что и askOnce окажется таким же ключом к будущим успехам Documentum/EMC.

Технология askOnce была разработана в Xerox Research Centre Europe (XRCE), расположенном в Гренобле (Франция) и являющемся одним из пяти мировых исследовательских центров Xerox. Подразделение askOnce, входящее в состав XRCE, вело достаточно самостоятельный бизнес, продавая свой продукт askOnce Content Integration Server 3.0 как напрямую корпоративным клиентам, так и в виде ОЕМ-версий другим поставщикам систем управления контентом. Характерно, что Documentum купила не только технологию, но и все подразделение askOnce в составе 18 сотрудников (стороны не раскрывают условия сделки, но, по их словам, сумма не является значительной). На его базе Documentum создала собственный инжиниринговый центр в Гренобле, в котором планируется продолжать разработку технологий интеграции корпоративного контента.

О внутренних деталях технологии askOnce известно не очень много, но в целом ее архитектура в общем-то понятна. Система состоит из серверного ядра и огромного набора адаптеров (Wrapper), обеспечивающих доступ к широкому спектру источников контента (более сотни в настоящее время). Под внутренними источниками подразумеваются различные корпоративные хранилища данных: СУБД, почтовые системы, ERP-решения и пр.

Однако наиболее интересные возможности askOnce проявляются в работе с внешними источниками информации. Речь тут идет не только об универсальном доступе к Web-ресурсам. Адаптеры askOnce обеспечивают возможность подключения к различным поисковым системам корпоративного (например, Verity, Hummingbird/Fulcrum, Convera) или Интернет-класса (Google, Alta Vista, Yahoo и пр.), специализированным информационным сайтам (ZDNet News, Reuters и пр.), СМИ (New York Times, Washington Post и пр.), электронным библиотекам (Library of Congress, British library), официальным государственным ресурсам (Law.com, US copyright Office) и т. д. Использование Java Server Pages (JSP) API позволяет без особых сложностей настраивать пользовательский интерфейс, а набор RMI API предоставляет возможность интеграции с различными приложениями. Создание дополнительных адаптеров не требует программирования и применения каких-либо еще инструментов.

Как известно, платформа Documentum в качестве механизма полнотекстового поиска использует решения фирмы Verity. Из официальной информации Documentum следует, что она не намерена конкурировать с поставщиками поисковых систем. Средства Verity по-прежнему будут поставляться в составе Documentum 5. Однако пользователи Documentum Virtual Repository смогут и сами выбирать наиболее подходящие для них поисковые индексы разных производителей, используя открытые технологии askOnce.

Таким образом, новое решение Documentum Virtual Repository будет включать следующие основные компоненты:

· интеграция корпоративного контента (Enterprise Content Integration) для поиска и доступа к неструктурированной информации из широкого спектра внешних и внутренних информационных ресурсов;

· управление бизнес-процессами (Business Process Management) для автоматизации бизнес-процессов, использующих неструктурированную информацию, расположенную в различных хранилищах;

· агрегация контента (Content Aggregation) для автоматического сбора, обработки и преобразования содержимого различных внутренних или внешних источников, в том числе баз данных, Web-сайтов, корпоративных приложений и информационных хранилищ;

· доставка контента (Content Distribution) для компоновки, управления подпиской и широкомасштабного распространения любой информации сколь угодно большому количеству подписчиков;

· классификация и категоризация контента (Content Classification and Categorization) для автоматического анализа информации на соответствие определенной теме и распределения ее по категориям.

До сих пор платформа Documentum обеспечивала все возможности Virtual Repository за исключением Enterprise Content Integration. Приобретение технологии askOnce позволяет теперь компании претендовать на статус поставщика полнофункционального решения для управления содержанием распределенных хранилищ в гетерогенной среде.