Появился новый класс интеллектуальных технологий - структурные аналитические технологии (САТ), ориентированные на углубленную обработку неструктурированной, в первую очередь текстовой, информации.
САТ предназначены для использования прежде всего в информационно-аналитических службах различных сфер деятельности (государственного управления, бизнеса, СМИ и т. д.). Их цель - повышение качества материалов, которыми эти службы снабжают аналитиков.
Эти технологии развивались на стыке нескольких направлений - семантических сетей, гипертекста, лингвистических процессоров. По форме общения с информацией САТ наиболее близки к гипертексту. В то же время разработчики привнесли в них ряд принципиальных идей, которые позволяют существенно расширить возможности классического гипертекста.
С точки зрения сложившейся классификации подходов к анализу информации САТ представляют подход снизу, не предусматривающий никаких априорных описаний, схем, моделей предметной области или анализируемой проблемы.
В существенной степени САТ используют уникальные возможности человека интерпретировать содержание текстовой информации и устанавливать связи между фрагментами текста (в первую очередь это происходит на стадии индексации информации). Этим, в частности, САТ отличаются и от лингвистических процессоров, и от технологий Data Mining, и от технологий интеллектуальных агентов. В последних информация обрабатывается в полностью автоматическом режиме, а САТ предполагают активную роль человека в формировании сети связей между элементами исходной информации.
Важной особенностью САТ является их нацеленность на стимулирование и интенсификацию мышления самого пользователя. Этому способствует и форма выдаваемых ему результатов, и возможность манипулирования эвристиками в процессе анализа, и многообразие видов САТ.
САТ нацелены на анализ конкретной ситуации или проблемы, в связи с которой возникла потребность анализировать информацию. При этом механизм анализа основан на установлении смысловых связей между значимыми фрагментами обрабатываемых текстовых материалов, анализе сформированной в результате этого сети, выделении и последующей интерпретации семантических структур. На выходе же получается информация о взаимосвязях событий, обстоятельств, факторов, существенных для понимания анализируемой ситуации или проблемы.
Естественно, что информация по исследуемой проблеме должна быть предварительно отобрана из всех возможных источников: базы данных, Интернет, текущего информационного потока.
САТ работают с фрагментами разных текстов или с краткими сообщениями. Они могут также иметь дело с отдельными большими документами, но в таком случае последние разбиваются на составные части или абзацы. Поэтому на первом этапе обработки информации в САТ из отобранных полнотекстовых материалов выделяются значимые для анализируемой ситуации или проблемы фрагменты либо документ разбивается на части или абзацы. В результате формируется исходный массив единиц информации - разрозненный и неупорядоченный текстовый материал.
На втором этапе выделенные единицы информации индексируются ключевыми словами, терминами, аспектами ситуации или проблемы, положениями какого-либо документа. Они также снабжаются ссылками на источники и любыми другими важными для пользователя атрибутами.
На третьем этапе производится первичная структуризация исходного множества единиц информации путем установления между ними смысловых связей. Эти связи устанавливаются либо непосредственно, либо опосредованно, с использованием приписанных единицам информации атрибутов. В последнем случае параллельно со структуризацией единиц информации (или вместо нее) на основе этой информации может осуществляться структуризация терминов, аспектов, положений, которыми индексировались единицы. Такие структуры могут представлять для пользователя самостоятельный интерес, иногда даже больший, чем структура самой текстовой информации.
В результате установления связей формируется сеть, которая информативно богаче исходного массива информации, поскольку связи также являются носителями информации. Таким образом, затраты интеллектуального труда на установление связей идут на обогащение исходной информации.
В разных видах САТ сеть строится по-разному. Например, можно использовать либо ненаправленные, либо направленные связи. Информация может привязываться только к узлам или к связям тоже. В качестве узлов могут выступать как единицы обрабатываемой информации, так и их атрибуты - термины, аспекты, положения.
Центральным этапом обработки информации в САТ является собственно анализ обогащенной связями информации, а точнее, анализ топологических характеристик информации.
Используемые в САТ эвристики - важнейший элемент их “ноу-хау”. Специфичные для каждого вида технологий этого типа, они обеспечивают выделение из первичной сети структур, которые обладают определенными свойствами, описываемыми на языке характеристик сети. Эти свойства интуитивно понятны и легко интерпретируемы, поскольку эвристики, на основе которых строятся структуры, изначально разрабатываются исходя из тех или иных интерпретаций. Например, эвристика связности обеспечивает восприятие формируемой линейной структуры как связного текста, описывающего определенный аспект исследуемой проблемы.
Проиллюстрируем характер получаемых при использовании САТ результатов.
1. На основе автоматической навигации (по эвристическим правилам) в гипертекстовой базе данных пользователь может, задав какой-либо фрагмент информации в качестве исходного, получить логически связанную последовательность фрагментов текстов, каждый из которых развивает и дополняет содержание предыдущих. Таким образом можно получить информацию по любому аспекту проблемы, выстроить аргументацию в поддержку той или иной гипотезы, проследить связь между не связанными на первый взгляд фактами, обстоятельствами, вопросами.
2. Специальные методы индексации данных позволяют выявить неслучайную устойчивую связь пар, троек и т. д. персоналий, факторов, обстоятельств, “сгустки” наиболее тесно связанных проблем, а также получить информацию, раскрывающую характер и содержание любых интересующих пользователя связей.
3. При сравнении директивных документов и проектов комплексных планов выявляются тесно взаимосвязанные позиции планов и позиции, почти не связанные с остальными, которые можно безболезненно исключить из плана.
САТ указывают на некоторые неочевидные или неявные взаимосвязи в рамках исследуемой проблемы либо ситуации. Анализ дает возможность “заметить” эти связи, зафиксировать их и получить достаточно полную и систематизированную картину связей. Кому адресованы такие результаты? Конечно, тем, кто занимается анализом проблемных ситуаций и ищет пути их решения, т. е. тем, кого в широком смысле можно назвать аналитиками (по профессии они могут быть и работниками сферы управления, и предпринимателями, и адвокатами, и исследователями...). Важно, что САТ поддерживают наиболее интеллектуальную часть аналитической работы - усмотрение взаимосвязей между проблемами, аспектами, факторами, обстоятельствами и на этой основе поиск и обоснование решений.
Решение разнообразных задач аналитического характера на основе структуризации предварительно отобранной текстовой информации - это та ниша, которую пока без особой конкуренции занимают разработанные в России структурные аналитические технологии. ГНТЦ “Гинтех” выпустил на рынок комплекс инструментальных средств, реализующих эти технологии.
Телефон московского ГНТЦ “Гинтех”: (095) 915-7004. 4
Анатолий Лакаев, Мартин Субботин, Виктор Сарычев
САТ указывают на некоторые неочевидные или неявные взаимосвязи в рамках исследуемой проблемы либо ситуации