REDLAB представляет “Русский текст”
Александр Ливеровский
23 сентября компании REDLAB и Informix провели презентацию нового продукта “Рубрикатор” из серии продуктов “Русский Текст” и модуля расширения Data Blade “Поиск” объектно-реляционной СУБД Informix Dynamic Server.
Рубрикатор позволяет производить семантический анализ текста и разбивать документы по заданным тематическим рубрикам, а также выполнять их поиск по смысловому содержанию. Рубрики могут быть организованы как в виде дерева, так и линейно, а создаваться могут вручную путем подбора ключевых слов, фраз и словосочетаний с приписанными им весами или путем автоматического анализа содержания 10 - 15 документов. Возможна ручная корректировка экспертом в предметной области. Как показывает практика, эксперту требуется около 30 мин на обработку одной рубрики.
Генеральный директор REDLAB Игорь Терехов
представляет “Русский текст”
Распределение документов по рубрикам выполняется с использованием морфологического и частотного словарей, а также словаря синонимов.
В продукт встроена возможность добавления новой рубрики в уже созданную базу документов. При этом реорганизация базы из 1 млн. документов объемом 8 Гб занимает несколько часов.
Кроме того, компании представили новую версию модуля полнотекстового поиска по русскоязычным документам “Русский текст - Поиск”, расширяющего возможности объектно-реляционной СУБД Informix. Первая его версия вышла в 1997 г. Это был первый российский модуль DataBlade, сертифицированный компанией Informix.
Лингвистическая модель позволяет производить морфологический разбор текста со скорстью, достигающей 5 Мб/с. Словарь содержит около 150 000 словоформ.
Кроме обычных функций поиска с использованием операторов “и”, “или”, “не”, модуль добавляет серверу баз данных возможности поиска по всем словоформам данного слова, нечеткого поиска и поиска по словам, находящимся на заданном расстоянии друг от друга.
Так как документы хранятся в базе данных как большие двоичные объекты (BLOB), то исходные документы могут быть представлены в различных форматах. Для их обработки достаточно написать соответствующие фильтры. В настоящее время документы могут быть представлены в виде текстовых файлов в формате DOS и в формате Microsoft Word 7.