OCR
Фирма ABBYY (www.abbyy.ru) вывела на рынок свое новое решение - сервер Recognition Server 1.0 для распознавания документов и PDF-файлов, который, как полагают в компании, заполняет пустовавшую доселе рыночную нишу. По словам Александра Рылова, главного менеджера по технологическим продуктам ABBYY, задачу распознавания больших (сотни страниц в день) потоков документации в централизованном (на сервере) порядке уже решали программисты некоторых российских фирм для крупных организаций. При этом использовались инструментальный пакет SDK и платформа OCR (FineReader), предоставляемые ABBYY. Однако подобные заказные программы в конечном счете либо не доводились до необходимого для последующего тиражирования состояния, либо оказывались узкоспециализированными. Поэтому, как отметил г-н Рылов, несмотря на заявления разработчиков таких продуктов, организовать их продажи на нашем рынке, заполнив соответствующую нишу, никому до сих пор не удавалось. Кроме того, по его мнению, у таких компаний в отличие от ABBYY отсутствовали соответствующие каналы дистрибуции, равно как и возможности технической поддержки продуктов. ABBYY же планирует продавать непосредственно своим клиентам примерно 30% лицензий на OCR-сервер, а 70% - распространять через интеграторов и дистрибьюторов.
Александр Рылов: “Мы ожидаем,
что ABBYY Recognition Server
увеличит годовой оборот
компании на 10%”
Обработка и распознавание графических образов, особенно в большом документном потоке, представляют собой в общем нетривиальную задачу, требующую значительных вычислительных ресурсов. И даже при современных возможностях компьютерной техники для качественного распознавания большого потока документов требуется значительное время, зависящее к тому же и от состояния обрабатываемых оригиналов. Для эффективного решения подобных задач и предназначен OCR-сервер ABBYY.
ABBYY Recognition Server позволяет провести автоматическую обработку изображений, полученных со сканера, и PDF-файлов. Для окончательной доработки документа может потребоваться его верификация, не поддающаяся автоматизации, которую уже вручную проводит оператор на своем (клиентском) ПК с использованием соответствующего приложения - например, MS Word.
Архитектура Recognition Server состоит из трех основных компонентов - менеджера сервера, станции обработки и консоли управления. Менеджер управляет запросами, настройками и сервисами, станция выполняет получаемые от него задания, консоль служит для администрирования и мониторинга системы. В зависимости от ситуации допускается как локальная установка ПО, когда все компоненты устанавливаются на один компьютер, так и сетевая. Дополнительно обеспечивается доступ к ABBYY Recognition Server посредством открытого интерфейса программирования (API), что предоставляет возможности как для реализации клиентской части, так и для интеграции со сторонними приложениями.
Администратору сервера доступно множество настроек, в том числе установка порога качества распознавания изображений, который задается в виде предельно допустимого числа неуверенно распознанных символов на одной странице. Предусмотрена также возможность планирования очередности обработки заданий.
При обработке PDF-файлов ABBYY Recognition Server определяет наличие и целостность текстового слоя, что обеспечивает наиболее быстрое и качественное распознавание. Кроме того, в серверном продукте реализовано распознавание одномерных и двумерных штрихкодов, расположенных на документе под любым углом.
Система поддерживает 187 языков для распознавания печатного текста на основе латинского, греческого, армянского и кириллического алфавитов. Реализовано распознавание многоязычных документов и различных типов текста: типографская печать, печатная машинка, матричный принтер и т. п.
Предполагается возможность интегрирования ABBYY Recognition Server в состав систем электронного документооборота, потокового ввода документов, электронных архивов, баз знаний, программ для обработки входящей почты и факсов.
На территории России предусмотрено несколько видов лицензирования продукта - по объему (количеству страниц), функциям или задействованным ресурсам (числу процессоров). Минимальная стоимость составляет 2,5 тыс. долл. За эти деньги можно получить лицензию для распознавания до 25 тыс. страниц в месяц. Для обработки большего потока документов (например, 50 или 100 тыс.) придется соответственно доплатить. Но можно приобрести лицензию и для работы с неограниченным потоком документов. По оценке разработчиков, появление такого нужного продукта уже к концу этого года может обернуться для ABBYY десятипроцентной "прибавкой" к общему объему продаж.
По заявлению Александра Рылова, у компании уже есть планы по развитию продукта: реализация поддержки протокола SOA, интеграция с FineReader и FormReader, автоматизация сортировки и сборки документов, автоматический разбор входящих писем.