Удивительно, но до появления в Интернете поисковых серверов большинство людей не задумывалось о том, почему нахождение нужного документа на единственном ПК долгое время было реализовано в операционной системе столь неуклюжим образом. Сейчас в нашем распоряжении Google Desktop и другие программы такого рода, легко индексирующие содержимое жесткого диска. Не менее актуальна подобная задача и для корпоративных информационных систем. Ее решение имеет ряд специфических особенностей: поиск, к примеру, должен распространяться не только на статические документы, но и на БД, бизнес-приложения, почтовые системы. Такие средства корпоративного поиска появились сегодня в арсенале SAP, Oracle и других вендоров. Но для успешного применения в нашей стране этих средств, каждое из которых имеет свои технологические достоинства, необходима их глубокая локализация: без учета особенностей русского языка, в частности его морфологии, на приемлемое качество поиска рассчитывать не приходится. А спрос на такие системы есть. “Мы наблюдаем большой интерес к Oracle Secure Enterprise Search 10g со стороны российских заказчиков, прежде всего относящихся к государственным структурам”, — утверждает директор по технологиям Oracle СНГ Глеб Ладыженский. Стремясь удовлетворить этот спрос, компания “ФОРС — Центр разработки” выпускает на рынок программно-аппаратный комплекс ROSES (Russian Oracle Secure Enterprise Search), который будет продаваться как напрямую, так и через партнерскую сеть.
В нем наряду с вышеупомянутым поисковым инструментарием Oracle используются лингвистические технологии российской фирмы RCO (Russian Context Optimizer), до декабря 2006 г. имевшей статус подразделения компании “Гарант-Парк-Интернет”. Она сотрудничает с Oracle более 10 лет и в свое время локализовала функциональность хранения и обработки текстов в СУБД Oracle. По словам генерального директора RCO Владимира Плешко, компания занимается исследованиями и разработками в области компьютерной лингвистики и анализа текстовой информации. Ее программы умеют выделять из текста самые разные объекты: специальные (даты, адреса, номера паспортов и кредитных карт), именованные (персоны, организации, географические названия), термины (включая и многословные), а кроме того, выявлять темы, события и их участников, факты, связи между объектами. В продукте ROSES применяется лишь морфологический анализ, позволяющий вести поиск не только по заданным пользователями ключевым словам, но и по всем их словоформам, а также находить верные эквиваленты словам, набранным с опечатками. В качестве аппаратной платформы предлагается двухпроцессорный сервер стандартной архитектуры. Всё решение с лицензией на неограниченное число пользователей будет стоить 100 тыс. долл. Его развертывание на предприятии, как утверждает директор по развитию бизнеса “ФОРС — Центр разработки” Николай Зезюлинский, занимает всего три дня.
Сначала с помощью административной консоли задаются объекты для индексирования. В стандартной поставке поддерживаются все популярные файловые системы, почта Microsoft Exchange и Lotus Notes, системы управления документами IBM FileNet и EMC Documentum, OLAP-серверы Business Objects, Cognos и MicroStrategy, БД SQL-типа, а также ряд приложений Oracle, включая Oracle E-Business Suite и Siebel CRM. Как считает Глеб Ладыженский, с помощью имеющихся в продукте API-интерфейсов возможно создание коннекторов и к другим приложениям. Список поддерживаемых форматов файлов содержит более двухсот позиций: HTML, PDF, RTF, DOC, XML, StarOffice, XLS, PPT, ZIP и др. Учитываются и такие метаданные, как имя автора, дата создания, тип документа, его название и т. д. В числе объектов индексирования могут быть и внешние по отношению к корпоративной ИС Web-сайты. А поскольку одновременно с построением индекса все проходящие обработку документы помещаются в файловый кэш, доступ к ним возможен даже в тех случаях, когда прямой выход сотрудников в Сеть из соображений безопасности заблокирован.
Обеспечение безопасности — еще одно важнейшее качество, отличающее системы корпоративного поиска. Несмотря на то что индекс охватывает всё пространство источников информации, доступ к тому или иному документу определяется единой корпоративной политикой. Возможность обращения к определенному источнику информации задается на основе централизованной аутентификации пользователя службой каталогов, а для более тонкой детализации ROSES хранит сведения о правах доступа в списках ACL (Account Control List), ассоциированных с каждым отдельным документом. Допускается также фильтрация результатов поиска с помощью механизма авторизации исходного источника информации (авторизация в момент выполнения).
Поскольку общепринятые в глобальных поисковых системах механизмы ранжирования результатов поиска по релевантности в корпоративных системах не применимы, ROSES использует для решения этой задачи специальные алгоритмы. Весьма полезна также фильтрация дубликатов: если, к примеру, в почтовых ящиках нескольких пользователей в результате массовой рассылки окажется одна и та же презентация, то в итоговом списке, предлагаемом поисковой машиной, такая презентация будет присутствовать в единственном числе.
По специальному заказу разработчики могут оснастить ROSES дополнительными функциями. В их числе поиск по синонимам и близким по смыслу понятиям, по ключевым темам, которые автоматически выделяются при индексировании, а также выявление смысловых связей между темами, составление рефератов, построение рубрикаторов и классификация документов по рубрикам. О стоимости подобных доработок ничего не сообщается. Думается, что успешность продвижения данного решения на отечественном рынке во многом будет зависеть от того, как заказчики отнесутся к весьма высокой цене сервиса, сильно усеченный аналог которого они привыкли получать в Интернете бесплатно.