17 - 18 июня в Российской академии государственной службы прошел уже 10-й по счету семинар фирмы "МетаТехнология", НТЦ и ГУИР ФАПСИ и ряда других организаций на тему "Информационные технологии в проектировании систем и управлении бизнесом". В первый день был прочитан курс лекций по IDEF-методологиям. IDEF расшифровывается как ICAM DEFinition, в свою очередь, ICAM  -  это Integrated Computer-Aided Manufacturing, глобальный проект для моделирования крупных систем, финансируемый в основном американскими силовыми министерствами.

 

Формализация ICAM и привела к появлению стандартов в области крупномасштабных системных методологий проектирования, в частности к IDEF0 и IDEF1X. Стандарт IDEF0 описывает с помощью квадратиков и дужек процесс функционирования сложной системы, и хотя со стороны это может показаться аналогом блок-схемы, IDEF0 описывает не логику выполнения программы или "информационные потоки", а именно процесс функционирования некоего сложного объекта с помощью формальных описаний управляющих воздействий. Эта методология разрабатывалась для проектирования не программных комплексов, а моделирования более общих задач, в чем ее несомненное преимущество. Соответственно IDEF1X описывает структуры данных опять-таки в наиболее абстрагированном как от тематики задачи, так и от типа хранения и способа доступа к этим данным виде: с помощью описания сущностей и отношений между ними "многие ко многим".

 

Одна из компьютерных версий этих методологий  -  пакет Design/IDEF, разработанный компанией MetaSoftware и предлагаемый в России фирмой "МетаТехнология", позволяющий в графическом виде осуществлять проектирование и анализ различных сложных систем.

 

Эта же фирма занимается распространением в нашей стране ряда программных продуктов корпорации Excalibur Technologies. Ее основателем является Джеймс Дау, ученый, разработавший уникальные алгоритмы нечеткого поиска и индексации, легшие в основу технологии адаптивного распознавания образов APRP. Он специально прилетел в Россию на данный семинар.

 

Первые работы Дау, начавшиеся, как водится, с лягушек, позволили ему создать модель нейронной сети, способной эффективно распознавать двоичные образы, оценивая степень "схожести" абстрактных объектов. Для самых разных типов данных появилась возможность индексации, хранения и поиска в электронном виде. Все это было воплощено в системе разработчика Excalibur RetreivalWare SDK, состоящей из ряда масштабируемых программных компонентов. Данная система была анонсирована на второй день семинара. Она состоит в первую очередь из сервера для поиска нужного текста по нечеткому запросу. Запрос разбивается на лексемы, затем проводится его морфологический анализ, нормализация по словарю и, наконец, с помощью семантической сети производится поиск по смыслу запроса. В сети хранится около 400 000 значений английских слов и более 1 500 000 связей между ними. Сейчас ведутся работы по созданию аналогичной сети для русского языка.

 

Сам запрос имеет ряд характеристик, определяющих объем и качество выходной информации. Это может быть степень семантической близости, точность поиска, его полнота, установка степени важности терминов в запросе, логические взаимоотношения, глубина связи между понятиями и др.

 

Интересно, что слова в запросе могут быть написаны с ошибками, причем подчас с очень сильным отличием от оригинала, и тем не менее после автоматического устранения шума и использования алгоритмов нечеткого поиска находится практически вся нужная информация.

 

Другой компонент RetreivalWare SDK  -  это сервер изображений. Он позволяет хранить в индексированном виде различные графические типы данных, как статические, так и динамические, осуществлять их поиск, распознавание путем анализа цвета, формы и текстуры, а также манипулировать ими. Легче всего поддаются индексированию такие изображения, как черно-белый печатный текст, различные логотипы, труднее  -  зашумленная графика типа фотографий. Можно производить поиск так называемых концептуальных изображений, когда вы задаете дополнительные смысловые характеристики типа "грустное лицо", "красивое" и т. д.

 

В качестве примера были продемонстрированы две задачи. Первая  -  это индексация и поиск японских иероглифов. Выявление схожести начертаний, в частности, выполнялось с помощью анализа наклона линий в иероглифе. За пару секунд была проиндексирована контрольная выборка, и при поиске по заданному образцу программа мгновенно выдавала набор похожих символов. Внешне они действительно напоминали оригинальное начертание, более того, докладчик отметил, что американские эксперты были удивлены тем фактом, что находимые программой иероглифы были подчас похожи на запрос не столько внешне, сколько по смыслу!

 

Второй пример касался поиска заготовок ключей. В бумажных каталогах приходится хранить очень большой объем информации, профессионалы в этой области держат большинство шаблонов заготовок в голове и быстро ориентируются в каталогах, но компьютерная система позволяет не менее эффективно осуществлять нужный поиск автоматически.

 

На основе этих средств разработки была создана такая коммерческая программа, как Excalibus EFS  -  электронный архив, отличающийся от аналогов возможностью хранить не только текстовую, но и графическую информацию, эффективно ее индексировать и осуществлять "нечеткий поиск", что особенно важно для документов, распознаваемых программами OCR. Удобный графический интерфейс, весьма дружелюбный, моделирующий привычные для человека понятия комнат, шкафов, ящиков и папок с документами, реализация в серверных средах Windows NT/UNIX с поддержкой большого числа клиентских аппаратных и программных платформ  -  все это, безусловно, делает данный продукт наиболее эффективным средством для ведения больших архивов как формализованной, так и "нечеткой" информации. Конечно, Excalibus EFS  -  не просто архив, но и инструментальное средство-оболочка для работы с ним.

 

НТЦ ФАПСИ выбрал после тщательного анализа этот продукт в качестве пилотного, так как в нем уровень семантического анализа текста сильно опережает показатели других конкурентов.

 

Для хранения конфиденциальной информации необходим соответствующий уровень защиты. Совместно с "МетаТехнологией" ФАПСИ готовит сертифицированную систему управления уровнем защищенности для NT. В частности, по словам выступающего, они выявили в Windows NT все дыры и "закрыли" их с помощью своего пакета. Его обещано продемонстрировать на WindowsExpo и к декабрю полностью закончить.

 

Далее было наглядно показано использование методологии IDEF0 для анализа такой бизнес-процедуры, как согласование и утверждение документа. Докладчик отметил, что на поиск необходимого документа (в бумажном виде) и нахождение в нем нужной информации уходит 75% всего времени данной процедуры и только 25% на непосредственную работу с документом. При использовании электронного архива ситуация обратная. Только 26% уходит на поиск нужной информации и соответственно уже 74% на работу с ней. Выгода очевидна.

 

В своей заключительной речи Джеймс Дау очень тепло отозвался о нашей стране, отметив, что, как ни парадоксально, небольшие объемы инвестиций в новые крупномасштабные технологии дают России реальный шанс обогнать Запад, так как там уже были произведены очень большие капиталовложения в быстро устаревшие технологии, которые теперь трудно менять, а мы можем без проблем использовать самые современные достижения компьютерной мысли, ломать, к счастью, ничего не надо.

 

Сергей Бобровский

Версия для печати