Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность

Панорама

Карен Саркисян: «Децентрализации – это сила и слабость блокчейнов»

Разработчик инструментов для блокчейнов крупной международной компании поделился опытом внедрения нестандартных решений …

Лучшие видеоредакторы для новичков и любителей

Начать монтаж видео сегодня довольно просто, т.к. любой видеоредактор работает по понятной логике «импорт — …

Дмитрий Кузьмин: «Архитектура — это поле, где решается будущее конкурентоспособности компании»

Архитектурные решения инженера-разработчика лежат в основе крупнейших коммерческих платформ, государственных сервисов …

Как модульный подход меняет разработку AI-агентов

Разнообразие low-code и no-code решений серьезно упростило создание IT-продуктов, в том числе, и на основе …

Почему выход новой версии ALD Pro — событие для российского рынка ИТ?

Мажорное обновление ALD Pro версии 3.0 — важный этап в развитии отечественных служб каталога. Релиз включает множество …

Берём на вооружение технологии ЦРУ

(428)14`2004

Сергей Бобровский | 20.04.2004

Технологии и системы автоматической классификации текстов, представленных на естественном языке (ТАКТ), издавна привлекали внимание создателей справочных баз данных, систем документооборота и поисковых механизмов. Программы-классификаторы сначала обучаются на наборах документов, разбитых на разные смысловые группы, а затем самостоятельно определяют, какой из этих групп соответствует любой новый незнакомый текст. При этом точность классификации близка к 100%. В результате появляется возможность автоматизации множества рутинных задач документооборота, когда объем доступной информации не подвластен ручной обработке. Большой интерес технологии автоматической классификации текстов вызывают у создателей поисковых Интернет-систем - ведь способность выдать на запрос пользователя близкие по смыслу материалы считается сегодня ключевым конкурентным отличием хорошего поисковика. С помощью ТАКТ успешно решаются задачи борьбы со спамом, определения авторства, выявления скрытого в тексте смысла и тематических взаимосвязей документа с другими материалами.

Подобные возможности ТАКТ привлекли, в частности, серьезное внимание аналитиков ЦРУ. Согласно опубликованному в 2001 г. плану управления по стратегическим инвестициям в технологии анализа информации (www.cia.gov/cia/reports/unclass_sip/), задачей с наивысшим приоритетом А признан сбор данных из открытых источников, а задачей с приоритетом B - внедрение средств автоматического анализа текстовой информации, что приравнено по важности к проекту расширения пропускной способности сетей служебной связи.

Возможности ТАКТ также приковывают внимание компаний, специализирующихся на конкурентной разведке, и высокотехнологичных криминальных структур. Длительность несанкционированного проникновения в компьютерную сеть конкурента до момента обнаружения может исчисляться секундами, поэтому необходимо быстро определить, какую конкретно информацию надо скопировать, для чего требуется предварительно просмотреть и классифицировать некоторое количество доступных документов. Оперативно сделать это можно только с помощью автоматических средств анализа текстовой информации. А наиболее эффективный способ защиты в таком случае - шифрование всех данных в компании.

Большинство систем ТАКТ распространяется на коммерческой основе, причем чаще всего они входят в состав СУБД и хранилищ текстовых данных. Как правило, рядовому пользователю они не по карману и рассчитаны на корпоративное применение. Существующие бесплатные аналоги отличаются крайне неудобным интерфейсом, функционируют только в Unix/Linux или же представляют собой библиотеки, ориентированные на программистов. Одно из редких исключений - программа BETSY (Bayesian Essay Test Scoring System, edres.org/ betsy/), разработанная Лауренси Раднер из Мэрилендского университета. На сайте проекта дополнительно приводится описание используемых в BETSY математических алгоритмов, опубликована различная справочная информация и ссылки на схожие работы.

Данная программа действует под управлением Windows и позволяет автоматически классифицировать текстовую информацию по 2-5 категориям. На вход подается обучающая выборка - группа файлов (обычный неформатированный текст, хотя имеется возможность получать сведения из реляционных БД через ODBC-интерфейс), заранее распределенная человеком по категориям, после чего выполняется обучение (программа исследует исходные материалы со скоростью около 100 Кб/мин) и несколько простых оптимизирующих шагов. Кириллический текст BETSY понимает без проблем.

В качестве эксперимента я взял пять случайных выпусков, опубликованных в PC Week/RE в рубрике "Военные известия" общим объемом 50 Кб и восемь новостных подборок объемом 40 Кб, разделив их соответственно на две категории. После обучения программе были предложены четыре новые, незнакомые ей военные подборки и четыре новостные, которые BETSY классифицировала абсолютно точно! Более того, один из файлов с "сырым" материалом, на 70% состоящим из военных новостей и на 30% из компьютерных, программа также правильно отнесла к первой категории.

Конечно, BETSY по большому счету не более чем игрушка, и вряд ли удастся включить ее в реальный бизнес-процесс (например, автоматические отбор и рубрикацию Интернет-новостей, что, как показывает опыт спецслужб, может быть крайне полезным для понимания ситуации на рынке). Ее возможности ограничены только пятью категориями, а пользовательский интерфейс оставляет желать лучшего. Однако эксперименты с BETSY и ей подобными приложениями могут стать первым шагом на пути освоения очень удобных и полезных (хотя и малознакомых) аналитических технологий, способных при вдумчивом использовании принести выгоды любой организации.

Вам удалось повысить эффективность своего бизнеса с помощью интеллектуальных технологий? Напишите автору по адресу: sbo@pcweek.ru.

Версия для печати

13-й ежегодный Russian Enterprise Content Summit 2026, 11.02.2026

	Интересно

	События
	Эксперты, регуляторы и звезды шоу-бизнеса объединяются против мошенников: в Москве состоится форум «АнтиФрод Россия» 11 декабря 2025 г. (четверг), 09:00 — 18:00, Цифровое Деловое Пространство (ЦДП)

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.