Компания Cognitive Technologies представила новое ядро распознавания документов Cognitive Forms 2007, основанное на разработанной ею технологии распознавания многокомпонентных частично структурированных документов CogniDocs.
Как известно, первые системы оптического ввода документов были ориентированы на распознавание печатных символов, почему и получили обозначение OCR (Optical Character Recognition). Затем появились технологии обработки документов фиксированной формы, определяющие местоположение полей на основе заранее определенных геометрических шаблонов. Следующим этапом развития этих технологий стала обработка документов, поля которых допускают определенные отклонения от шаблона или включают таблицы с переменным количеством строк (таковы, например, платежные требования и поручения).
Однако значительная часть документов не может быть представлена с помощью геометрических шаблонов, даже если набор входящих в их состав реквизитов заранее известен, поскольку форма этих документов не зафиксирована какими-либо нормативными актами. В этом случае для идентификации реквизитов необходимы другие методы, основанные не столько на геометрическом расположении, сколько на их содержании. Таким образом, возникает потребность не в простом распознавании символов, а в интеллектуальной обработке документов в целом. Системы этого класса только начинают появляться, и для их обозначения была предложена аббревиатура IDR (Intellect Document Recognition).
Под определение “частично структурированного” подпадает почти любой документ. Например, крупное художественное произведение будет, скорее всего, состоять из ряда глав, каждая из которых включает заголовок и собственно текст. Однако для бизнеса интерес представляют, конечно, более “приземленные” документы: договоры, формальная деловая переписка, резюме и т. п. Например, система IDR, получив на входе некое факсимильное сообщение, может распознать адресата (“Руководителю отдела маркетинга”, “Г-ну Петрову А. И.” и т. п.) и сразу же отправить ему этот документ по электронной почте.
В том или ином виде элементы IDR присутствовали в некоторых ранее выпущенных решениях Cognitive. Например, в 1994 г. появилась система Business Card Wizard, которую можно рассматривать как специализированное IDR-решение: она распознавала и автоматически разбирала содержимое визитных карточек произвольного формата. Технология интеллектуального распознавания дат и временных отрезков, упоминаемых в текстах документов, в том числе в неявном виде (например, “в конце II века” или “в период Великой Отечественной войны”), была реализована в продукте “Евфрат-Офис”, появившемся в середине 1990-х. Кроме того, многие технологические решения подобного рода были опробованы в заказных разработках.
Новая технология CogniDocs отличается от предшествующих разработок Cognitive способностью обрабатывать документы, состоящие из частей (секций), которые могут стыковаться между собой по определенным правилам, заданным в описании документа, причем вариантов стыковки может быть несколько. При создании этой технологии компания разработала способ формализации модели документа, соответствующий язык описания, алгоритмы анализа, обеспечивающие идентификацию секций (декомпозицию документа) и контроль связей между ними, а также выделение реквизитов. Немаловажно, что CogniDocs может обрабатывать многостраничные документы.
Разработка CogniDocs была начала в 2002 г. Первым ее практическим применением стала система ввода счетов-фактур на Магнитогорском металлургическом комбинате, запущенная в опытную эксплуатацию в 2004-м, а в промышленную — в 2005-м. В настоящий момент система обеспечивает ввод 16 видов документов — счетов-фактур, актов, накладных, регистрационных документов контрагентов, договоров и т. д. Ограниченный по функциональности вариант технологии CogniDocs включен в состав новой конфигурации встраиваемого ядра распознавания Scanify API — Bank and Office, обеспечивающего ввод различных деловых документов.