Технологии и системы автоматической классификации текстов, представленных на естественном языке (ТАКТ), издавна привлекали внимание создателей справочных баз данных, систем документооборота и поисковых механизмов. Программы-классификаторы сначала обучаются на наборах документов, разбитых на разные смысловые группы, а затем самостоятельно определяют, какой из этих групп соответствует любой новый незнакомый текст. При этом точность классификации близка к 100%. В результате появляется возможность автоматизации множества рутинных задач документооборота, когда объем доступной информации не подвластен ручной обработке. Большой интерес технологии автоматической классификации текстов вызывают у создателей поисковых Интернет-систем - ведь способность выдать на запрос пользователя близкие по смыслу материалы считается сегодня ключевым конкурентным отличием хорошего поисковика. С помощью ТАКТ успешно решаются задачи борьбы со спамом, определения авторства, выявления скрытого в тексте смысла и тематических взаимосвязей документа с другими материалами.
Подобные возможности ТАКТ привлекли, в частности, серьезное внимание аналитиков ЦРУ. Согласно опубликованному в 2001 г. плану управления по стратегическим инвестициям в технологии анализа информации (www.cia.gov/cia/reports/unclass_sip/), задачей с наивысшим приоритетом А признан сбор данных из открытых источников, а задачей с приоритетом B - внедрение средств автоматического анализа текстовой информации, что приравнено по важности к проекту расширения пропускной способности сетей служебной связи.
Возможности ТАКТ также приковывают внимание компаний, специализирующихся на конкурентной разведке, и высокотехнологичных криминальных структур. Длительность несанкционированного проникновения в компьютерную сеть конкурента до момента обнаружения может исчисляться секундами, поэтому необходимо быстро определить, какую конкретно информацию надо скопировать, для чего требуется предварительно просмотреть и классифицировать некоторое количество доступных документов. Оперативно сделать это можно только с помощью автоматических средств анализа текстовой информации. А наиболее эффективный способ защиты в таком случае - шифрование всех данных в компании.
Большинство систем ТАКТ распространяется на коммерческой основе, причем чаще всего они входят в состав СУБД и хранилищ текстовых данных. Как правило, рядовому пользователю они не по карману и рассчитаны на корпоративное применение. Существующие бесплатные аналоги отличаются крайне неудобным интерфейсом, функционируют только в Unix/Linux или же представляют собой библиотеки, ориентированные на программистов. Одно из редких исключений - программа BETSY (Bayesian Essay Test Scoring System, edres.org/ betsy/), разработанная Лауренси Раднер из Мэрилендского университета. На сайте проекта дополнительно приводится описание используемых в BETSY математических алгоритмов, опубликована различная справочная информация и ссылки на схожие работы.
Данная программа действует под управлением Windows и позволяет автоматически классифицировать текстовую информацию по 2-5 категориям. На вход подается обучающая выборка - группа файлов (обычный неформатированный текст, хотя имеется возможность получать сведения из реляционных БД через ODBC-интерфейс), заранее распределенная человеком по категориям, после чего выполняется обучение (программа исследует исходные материалы со скоростью около 100 Кб/мин) и несколько простых оптимизирующих шагов. Кириллический текст BETSY понимает без проблем.
В качестве эксперимента я взял пять случайных выпусков, опубликованных в PC Week/RE в рубрике "Военные известия" общим объемом 50 Кб и восемь новостных подборок объемом 40 Кб, разделив их соответственно на две категории. После обучения программе были предложены четыре новые, незнакомые ей военные подборки и четыре новостные, которые BETSY классифицировала абсолютно точно! Более того, один из файлов с "сырым" материалом, на 70% состоящим из военных новостей и на 30% из компьютерных, программа также правильно отнесла к первой категории.
Конечно, BETSY по большому счету не более чем игрушка, и вряд ли удастся включить ее в реальный бизнес-процесс (например, автоматические отбор и рубрикацию Интернет-новостей, что, как показывает опыт спецслужб, может быть крайне полезным для понимания ситуации на рынке). Ее возможности ограничены только пятью категориями, а пользовательский интерфейс оставляет желать лучшего. Однако эксперименты с BETSY и ей подобными приложениями могут стать первым шагом на пути освоения очень удобных и полезных (хотя и малознакомых) аналитических технологий, способных при вдумчивом использовании принести выгоды любой организации.
Вам удалось повысить эффективность своего бизнеса с помощью интеллектуальных технологий? Напишите автору по адресу: sbo@pcweek.ru.