Систематизировать информационное содержимое - такая задача представляется несложной, однако лишь до того момента, пока ею не приходится заняться вплотную. Там, где даже люди не всегда могут договориться о системе категорий, применение машин кажется вообще невозможным.

Но, к счастью, все не так мрачно. Три программы, прошедшие сравнительное тестирование в eWeek Labs, показали отличные результаты. Особенно впечатляет явная тенденция повышения производительности подобных продуктов.

Экспертизу в eWeek Labs прошли Auto-Categorizer 1.1 фирмы Applied Semantics, MetaTagger 3.0 фирмы Interwoven и Texis Categorizer фирмы Thunderstone Software. Все они различаются и по техническим решениям, и по подходу к самому процессу классификации данных, однако это не помешало нам выделить потенциальные области применения средств систематизации в компаниях.

Мы исследовали способность продуктов импортировать, создавать и редактировать систематику, оценили их потенциал относительно унаследованного и нового контента, проверили, как их можно “обучать”. Оценили мы и интегрируемость продуктов с другими корпоративными системами.

В каждом из пакетов реализован собственный подход к систематизации, поэтому компаниям стоит оценивать их не только в качестве автономных систем, но и как отдельные элементы общей системы распределения информационного содержимого по категориям.

MetaTagger 3.0 фирмы Interwoven, скажем, работает только во взаимодействии с платформой управления контентом Interwoven TeamSite. Однако даже те организации, где TeamSite отсутствует, могут заключить, что их потребностям в наибольшей мере отвечает интеграция механизма систематизации информации с ПО управления им.

Для других компаний лучшим окажется открытый подход Texis Categorizer 4.1, обеспечивающий простую интеграцию со множеством разнообразных приложений и сайтов.

А Auto-Categorizer, основанный на методах онтологического анализа и поэтому пригодный только для ограниченного числа областей, которые он охватывает на сегодняшний день, предлагает целенаправленный и гибкий метод создания четкой систематики.

Но какой бы подход вы ни выбрали, есть несколько рекомендаций, помогающих относительно безболезненно провести развертывание средств систематизации. Крайне важно, например, знать, где хранится контент и как он генерируется. Иногда классифицировать документ можно и после его создания, но лучше все же задавать категорию для него сразу.

Большинство производителей средств систематизации контента помогают клиентам разработать систематику, направляя к ним своих аналитиков. Это может оказаться очень полезным, особенно компаниям, не имеющим опыта такой работы, а также тем, кто хочет стандартизировать схему классификации информации. Но встреча с выездным специалистом будет эффективна лишь в том случае, если менеджер ИТ подготовится к ней и составит хотя бы общий план систематизации. В противном случае он рискует получить систематику, подготовленную для другой компании, предъявившей сходные требования.

И наконец, организациям следует заранее определить, какие из их систем должны интегрироваться с платформой систематизации. При этом нужно учитывать как технические, так и структурные аспекты систематики, которые очень сильно зависят от состава задействованных систем.

Нельзя забывать также о совместимости. От того, в какой степени продукт поддерживает открытые стандарты и распространенные языки разработки, будет зависеть простота его интеграции с другими приложениями.

Auto-Categorizer 1.1

Главная отличительная черта этого продукта фирмы Applied Semantics - опора на ее собственные методы массированной онтологии. Их отработка ведется уже несколько лет с применением широкомасштабного анализа содержимого на серверах Всемирной паутины и привлечением экспертов-лингвистов. На данный момент накопленный словарь содержит более 1,2 млн. терминов.

Auto-Categorizer позволяет настраивать систематику и привязывать категории к концепциям массированной онтологии

Как правило, Applied Semantics предлагает Auto-Categorizer в виде предустановленного приложения, однако компании могут заказать и продукт сам по себе для самостоятельной установки на своих серверах (поддерживаются системы на базе Linux, Solaris и Windows). При проведении экспертизы административное управление механизмом систематизации производилось удаленно с помощью работающего только в среде Windows клиента Taxonomy Administrator.

Он облегчил нам создание уникальной систематики в соответствии с индивидуальными требованиями. Кроме того, мы нашли в продукте ряд специфичных отраслевых схем классификации для использования в готовом виде или подстраивания под конкретные задачи.

После того как систематика была создана, мы отобразили каждую ее категорию на одну или несколько онтологических концепций. Для категории “психическое здоровье”, например, мы воспользовались такими понятиями, как “депрессия” и “психологическая помощь”.

Отметим также, что Auto-Categorizer позволяет создавать подкатегории, которые появляются в конце запросов и повышают точность результатов поиска. При тестировании продукта мы очень просто наладили обновление категорий на регулярной основе.

Клиент Taxonomy Administrator имеет инструментальную программу Gist, служащую для проверки эффективности систематизации. Мы ввели образец контента и оценили правильность отображаемых категорий. Для этого достаточно вырезать информационное наполнение, вставить в клиент Gist либо просто указать ссылку URL, и инструментарий выведет на дисплей список категорий и понятий, имеющих отношение к проверяемому контенту.

Для ввода и вывода всех данных в Auto-Categorizer используется язык XML, благодаря чему обеспечивается совместимость продукта практически с любой системой. А его интеграция с другими приложениями производится с помощью API языков Си, Java, Perl и Visual Basic.

Стоит Auto-Categorizer от 140 до 160 тыс. долл., что вполне сопоставимо с другими подобными продуктами.

Сама сущность онтологии и принципы работы системы Applied Semantics определяют ее нацеленность на конкретные отрасли. Первая версия продукта (которую мы тестировали) предназначена для издательских организаций, а следующая - для фармацевтической отрасли.

MetaTagger 3.0

Фирма Interwoven создала себе имя на управлении информационным содержимым Всемирной паутины, поэтому нет ничего удивительного в том, что ее механизм систематизации MetaTagger 3.0 тесно интегрирован с платформой управления контентом Interwoven TeamSite.

Создатель контента может легко просматривать данные о категориях и одновременно

добавлять новое информационное наполнение с помощью TeamSite

Правда, такой интеграции присущи как достоинства, так и недостатки. Плохо то, что использовать MetaTagger в полной мере смогут лишь компании, уже применяющие или планирующие развернуть TeamSite. Однако нельзя не отметить: хотя интеграция со средствами управления информацией предусмотрена практически во всех механизмах систематизации, мало где она достигает уровня MetaTagger и TeamSite.

Для запуска MetaTagger нам пришлось сначала установить TeamSite, который запускается на платформах Windows и Solaris. Установка прошла очень легко, особенно для системы управления содержимым, и вскоре мы смогли приступить к экспертизе самого механизма систематизации.

Значительная часть начальной настройки MetaTagger, включая конфигурирование систематики и назначение обучающих комплектов, состоит в редактировании файлов конфигурации на основе XML. Кроме того, для систематики можно использовать структуру каталогов. Просматривать, редактировать и подстраивать иерархию категорий нам помогал клиент MetaSource Editor.

После завершения настройки обращаться к услугам MetaTagger можно либо через браузерный интерфейс администрирования, либо из командной строки.

Для систематизации унаследованного содержимого можно воспользоваться пакетным инструментарием командной строки, однако главное внимание разработчики этого механизма сосредоточили на систематизации и четком тегировании контента в процессе его создания. О том, насколько MetaTagger помогает распределять информацию по категориям при работе с TeamSite, можно судить и по результатам нашей экспертизы, и по систематизации тестовых массивов, проведенной Interwoven.

Из интерфейса TeamSite нам не составляло труда просматривать все категории и систематики. Нетрудно было и принимать предложения, вносить необходимые изменения, а при редактировании контента мы могли генерировать категории, что называется, на лету.

Кроме категорий из иерархии MetaTagger способен подсказывать и темы, связанные с данной, выбирая их из заданных 4600 терминов. Как показала экспертиза, это очень удобно для выявления ключевых слов Web-содержимого и помогает MetaTagger отлично справляться с управлением нетрадиционным содержимым наподобие мультимедийных файлов. Более того, если последние имеют встроенные метаданные, MetaTagger извлекает их непосредственно из файла. Предусмотрена в продукте и возможность прямого распределения мультимедийного контента по отдельным категориям.

Если компания подумывает о развертывании MetaTagger, она, видимо, уже вложила в TeamSite сумму, обозначаемую шестизначной цифрой. Теперь ей останется в зависимости от конфигурации развертывания заплатить от 85 до 110 тыс. долл. в расчете за один сервер.

Texis Categorizer 4.1

Традиционно приложения систематизации контента предлагались такими производителями поисковых механизмов, как Thunderstone. Именно их разработки и по сей день занимают солидную часть рынка систематизации.

При систематизации документов происходит обучение Texis Categorizer и качество его работы быстро повышается

Наглядным примером подобного приложения может служить Texis Categorizer, отличающийся большой гибкостью реализации и способностью легко интегрироваться с другими системами, особенно с Web-приложениями.

Данный механизм может работать практически на любой платформе - от Windows-серверов до большинства вариантов Unix. Мы проверяли его в среде Linux.

Главное в Texis Categorizer - его база данных Texis SQL и сценарный механизм Vortex, использующий стандартные сценарии CGI (Common Gateway Interface - интерфейс общего шлюза). Практически любой Web-разработчик может освоить эту систему очень быстро.

После того как начальные сценарии, в том числе описания систематики, будут настроены, все остальное выполняется через простой браузерный интерфейс.

Для каждой категории систематики Thunderstone рекомендует применять около 20 обучающих комплектов. Для тестового “обучения”, например, мы использовали два десятка обзоров систем хранения информации.

Впрочем, даже если обучение прошло не полностью, Texis Categorizer позволяет легко и просто провести детальную настройку категорий. Так, в ходе тестирования мы могли загружать несистематизированные элементы в интерфейс и анализировать их. После обработки каждого такого элемента мы отмечали, что точность систематизации повышается.

Если же возникала необходимость изменить информацию о распределении контента по категориям, можно было отменить проведенную ранее систематизацию, а затем повторить ее.

Стоит Texis Categorizer намного дешевле многих подобных продуктов: 10 тыс. долл. за механизм Texis и 10 тыс. долл. за сам Categorizer.

Систематизация контента: табло результатов

ОСНОВНЫЕ ОСОБЕННОСТИ

ЦЕНЫ

РЕЗЮМЕ

Auto-Categorizer 1.1 фирмы Applied Semantics; www.appliedxemantics.com

- Привязка категорий к концепциям и значениям на основе массированной онтологии

- Простота создания и редактирования систематик и проверки категорий

- Поддержка XML и API различных языков, упрощающая интеграцию Auto-Categorizer с другими системами

- Специализация для конкретных отраслевых сегментов

От 140 000 до 160 000 долл.

Applied Semantics предлагает уникальный и очень эффективный подход к систематизации. Однако область применения Auto-Categorizer пока ограничена только издательской деятельностью (в ближайшее время она охватит и фармакологию), поэтому его отличные возможности доступны далеко не всем

MetaTagger 3.0 фирмы Interwoven; www.interwoven.com

- Качественная обработка информационного наполнения по мере его создания в системе управления контентом

- Способность легко обрабатывать множество различных типов контента, включая мультимедийные файлы

- Необходимость приложения управления контентом TeamSite фирмы Interwoven

Те, у кого уже имеется TeamSite, могут приобрести только MetaTagger, заплатив от 85 000 до 110 000 долл. Остальным придется приобретать и лицензию на TeamSite ценой от 125 000 до 175 000 долл.

Хороший пример высокопроизводительного сочетания механизма систематизации информационного наполнения с системой управления им, благодаря которому Interwoven MetaTagger четко распределяет контент по категориям непосредственно в процессе его создания. Правда, чтобы воспользоваться такой возможностью, необходимо иметь TeamSite

Texis Categorizer 4.1 фирмы Thunderstone Software; www.thunderstone.com

- Использование стандартных сценариев CGI и запросов SQL, упрощающих заказную настройку Texis Categorizer и его интеграцию с другими системами

- Простота подстройки процесса систематизации с помощью обучающих комплектов

- Возможность работы на большинстве платформ

Механизм Texis и приложения Categorizer стоят по 10 000 долл. каждый, что намного дешевле конкурирующих с ними систем.

Основанный на стандартах и проверенных временем Web-технологиях, Texis Categorizer фирмы Thunderstone демонстрирует хорошие возможности систематизации, которые к тому же постоянно совершенствуются. А опора на стандартные сценарии Всемирной паутины делает эту систему легко расширяемой и совместимой с другими     

Версия для печати