Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Кто ищет, тот всегда найдёт (если знает, что ищет)

(291)21`2001

Елена Монахова | 12.06.2001

ПО СЛЕДАМ ПУБЛИКАЦИЙ

Не так давно на наших страницах прогремело “рондо” в трех частях (см. PC Week/RE, № № 8, 10, 12, 14/2001), каждая из которых была соответственно посвящена системам управления знаниями, управления документами (СУД) и управления потоком работ (workflow). Публикации вызвали определенный резонанс среди нашей читательской аудитории, и сегодня мы хотим продолжить разговор о механизмах поиска информации, встроенных в СУД и workflow-системы. Тем более что мы не совсем корректно выразили свои мысли по этому поводу, заявив, что в системе “Оптима-workflow” нет поисковых механизмов.

Собственно, речь вот о чем. Workflow-система работает с теми или иными объектами (ими могут быть и документы), которые она перемещает между рабочими местами. Сами эти объекты должны где-то храниться, например в каких-то репозиториях. Если же они не хранятся, то найти их можно только в тот момент, когда они участвуют в процессе. Понятно, что если объекты в данный отрезок времени ни в каком процессе не участвуют (и не хранятся в репозитории), то нет никакой возможности понять, где эти документы находятся, какие у них права, свойства и т. д.

Классическая workflow-система, по словам экспертов, не включает никаких встроенных репозиториев, содержащих информацию об объектах. Она работает с объектами, которые хранятся в каких-то внешних репозиториях, например во внешних приложениях. Это принципиально важный момент.

Поэтому нашу фразу из публикации, утверждающую, что “workflow-системам не требуются механизмы поиска документов, и они действительно там отсутствуют”, следует понимать как вывод из сказанного выше. Это абсолютно справедливо для системы Staffware - высокопроизводительной workflow-системы, управляющей процессами, а не документами.

Что же касается системы “Оптима-workflow”, то, будучи комбинированной системой, она обладает элементами workflow, с одной стороны, и развитыми средствами управления документами - с другой, в том числе механизмами поиска документов, о которых мы скажем несколько дополнительных слов.

Механизмы поиска “Оптима-workflow” позволяют осуществлять многопоточный поиск документов, хранящихся в базе данных системы электронного документооборота, а именно:

- вести поиск по совокупности значений или их интервалов в атрибутах регистрационных карточек;

- выполнять поиск по совокупности системных характеристик документов и их версий;

- создавать компактный индексный файл для исходных документов, в том числе с использованием лемматизации;

- осуществлять полнотекстовый поиск:

- по “телу” версий документов,

- по полям регистрационных карточек документов,

- по аннотациям документов,

- по коллекциям резолюций к версиям документов.

Таким образом, пользователь системы для навигации по документам получает, помимо стандартных механизмов фильтрации и рубрицирования доступной информации, инструмент для настройки сложных (интегрированных) поисковых запросов, позволяющих оперативно находить необходимые документы во всем разнообразии их проявлений.

Полнотекстовая индексация. Модуль “Сервер индексирования, поисковая машина” даст возможность создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (MS Exchange, БД). Для того чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система применяет знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 120 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительный размер индекса зависят от большого числа параметров - конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т. д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного “гладкого текста” в формате TXT:

Полнотекстовый поиск. Модуль “Сервер индексирования, поисковая машина” дает возможность вести как простой, так и расширенный поиск. (При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов И, ИЛИ, НЕ.) В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стопслов, поиск даже в многоязычных документах осуществляется настолько эффективно, что его скорость составляет доли секунды и практически сравнима со скоростью реакции пользователя.

Нечеткий поиск. Модуль “Сервер индексирования, поисковая машина” позволяет осуществлять нечеткий поиск, т. е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случаях, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Кто ищет, тот всегда найдёт (если знает, что ищет)

Комментарии