ПО СЛЕДАМ ПУБЛИКАЦИЙ
Не так давно на наших страницах прогремело “рондо” в трех частях (см. PC Week/RE, № № 8, 10, 12, 14/2001), каждая из которых была соответственно посвящена системам управления знаниями, управления документами (СУД) и управления потоком работ (workflow). Публикации вызвали определенный резонанс среди нашей читательской аудитории, и сегодня мы хотим продолжить разговор о механизмах поиска информации, встроенных в СУД и workflow-системы. Тем более что мы не совсем корректно выразили свои мысли по этому поводу, заявив, что в системе “Оптима-workflow” нет поисковых механизмов.
Собственно, речь вот о чем. Workflow-система работает с теми или иными объектами (ими могут быть и документы), которые она перемещает между рабочими местами. Сами эти объекты должны где-то храниться, например в каких-то репозиториях. Если же они не хранятся, то найти их можно только в тот момент, когда они участвуют в процессе. Понятно, что если объекты в данный отрезок времени ни в каком процессе не участвуют (и не хранятся в репозитории), то нет никакой возможности понять, где эти документы находятся, какие у них права, свойства и т. д.
Классическая workflow-система, по словам экспертов, не включает никаких встроенных репозиториев, содержащих информацию об объектах. Она работает с объектами, которые хранятся в каких-то внешних репозиториях, например во внешних приложениях. Это принципиально важный момент.
Поэтому нашу фразу из публикации, утверждающую, что “workflow-системам не требуются механизмы поиска документов, и они действительно там отсутствуют”, следует понимать как вывод из сказанного выше. Это абсолютно справедливо для системы Staffware - высокопроизводительной workflow-системы, управляющей процессами, а не документами.
Что же касается системы “Оптима-workflow”, то, будучи комбинированной системой, она обладает элементами workflow, с одной стороны, и развитыми средствами управления документами - с другой, в том числе механизмами поиска документов, о которых мы скажем несколько дополнительных слов.
Механизмы поиска “Оптима-workflow” позволяют осуществлять многопоточный поиск документов, хранящихся в базе данных системы электронного документооборота, а именно:
- вести поиск по совокупности значений или их интервалов в атрибутах регистрационных карточек;
- выполнять поиск по совокупности системных характеристик документов и их версий;
- создавать компактный индексный файл для исходных документов, в том числе с использованием лемматизации;
- осуществлять полнотекстовый поиск:
- по “телу” версий документов,
- по полям регистрационных карточек документов,
- по аннотациям документов,
- по коллекциям резолюций к версиям документов.
Таким образом, пользователь системы для навигации по документам получает, помимо стандартных механизмов фильтрации и рубрицирования доступной информации, инструмент для настройки сложных (интегрированных) поисковых запросов, позволяющих оперативно находить необходимые документы во всем разнообразии их проявлений.
Полнотекстовая индексация. Модуль “Сервер индексирования, поисковая машина” даст возможность создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (MS Exchange, БД). Для того чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система применяет знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 120 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительный размер индекса зависят от большого числа параметров - конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т. д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного “гладкого текста” в формате TXT:
Полнотекстовый поиск. Модуль “Сервер индексирования, поисковая машина” дает возможность вести как простой, так и расширенный поиск. (При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов И, ИЛИ, НЕ.) В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стопслов, поиск даже в многоязычных документах осуществляется настолько эффективно, что его скорость составляет доли секунды и практически сравнима со скоростью реакции пользователя.
Нечеткий поиск. Модуль “Сервер индексирования, поисковая машина” позволяет осуществлять нечеткий поиск, т. е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случаях, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.