На совершенствование продукта разработчики затратили 80 человеко-лет
29 августа произошло неординарное событие - компания ABBYY Software House (www.abbyy.ru) объявила о начале продаж в России систем распознавания текстов FineReader 5.0, пришедших на смену системам версии 4.0 (см. PC Week/RE, № 15/98, с. 1).
По словам генерального директора ABBYY Сергея Андреева, при создании FineReader 5.0 основные усилия разработчиков были направлены на расширение числа распознаваемых языков, совершенствование процедуры анализа структуры документа и повышение точности распознавания. В результате в новой версии число понимаемых языков увеличилось более чем втрое, улучшилось качество распознавания (среднее число ошибок, приходящихся на одну страницу, сократилось примерно в 1,5 раза) и повысилась степень сохранения оформления документа (теперь распознанный текст полностью воспроизводит внешний вид оригинального документа - распределение текста по колонкам, расстояние между словами и абзацами, структуру таблиц, расположение рисунков и т. д.).
Наталья Бриль отмечает, что в FineReader 5.0
следов старых кодов практически не осталось
Г-н Андреев отметил, что над созданием FineReader 5.0 около 40 программистов фирмы трудились в течение двух лет. Изменения были столь значительны (в продукте применен ряд принципиально новых оригинальных алгоритмов), что код программы практически полностью переписан. При разработке учитывались пожелания пользователей, касающиеся функциональных возможностей программы, удобства ее использования и наглядности интерфейса.
Менеджер по маркетингу проекта FineReader Наталья Бриль сообщила, что “по просьбе трудящихся” в новой версии появилось много дополнительных возможностей, облегчающих работу с программой:
- обучение на примерах (в разделе Tutorial рассматриваются приемы обработки 14 наиболее типичных с точки зрения структуры документов);
- вызов из Microsoft Word (при инсталляции FineReader 5.0 в Microsoft Word встраивается специальная пиктограмма);
- поддержка форматов HTML и PDF;
- автоматическое устранение перекосов при сканировании сдвоенных книжных страниц;
- сохранение цвета текста распознаваемого документа;
- распознавание подстрочных индексов и простых химических формул;
- распознавание вертикального текста и картинок в ячейках таблиц;
- назначение разных языков распознавания на разные колонки таблицы;
- обучение новым символам;
- фоновое распознавание и т. д.
К проверке продукта было привлечено свыше 50 бета-тестеров из разных стран. Кроме того, летом 2000 г. FineReader 5.0 испытывали со всеми появившимися за последнее время моделями сканеров (их набралось около 70) и перспективными операционными системами, включая Windows 2000 и Windows ME.
Новинка будет поставляться в двух вариантах: однопользовательском (FineReader 5.0 Pro, рекомендованная цена - $99, цена апгрейда с программы-предшественницы FineReader 4.0 Standard - $69) и сетевом (FineReader 5.0 Office - $399, цена апгрейда с FineReader 4.0 Professional - $259). Напомним, что до объявления версии 5.0 рекомендованная цена однопользовательского варианта FineReader 4.0 составляла $200, а сетевого - $400.
Сетевой вариант FineReader 5.0 допускает распределенную обработку документов: на одной рабочей станции может производиться сканирование, на другой - распознавание, на третьей - проверка результатов этих операций. Кроме того, в версии Office реализована поддержка многопроцессорной работы, она также допускает возможность расширения числа понимаемых языков (для чтения с весьма специфических текстов), распознавания штрих-кодов и взаимодействия с приложениями, поддерживающими промышленный стандарт ODMA (Open Document Management API - открытый интерфейс управления документами).
В поставку FineReader 5.0 Office входит так называемый Formulator - программа для заполнения форм. Это приложение позволяет заполнять различные фирменные бланки: сначала такой бланк сканируется, затем с помощью ПК пользователь заполняет поля для ввода текста или “галочек”, после чего бланк вставляется в печатающее устройство и на него наносится требуемый “контент”.
FineReader 5.0 распознает документы, составленные на 176 различных языках, использующих латинский, кириллический, греческий или армянский алфавит (включая искусственный язык эсперанто и языки программирования Си/Си++, Java, Бейсик, Кобол, Фортран, Паскаль), а также многоязычные документы. Кроме того, с версией 5.0 поставляется полнофункциональная система коррекции орфографии ABBYY Morphology для 30 языков. К имевшимся ранее добавились армянский язык (диалекты - восточный, западный и грабар), немецкий (новая орфография), а также венгерский, латышский и словацкий. Поддержка украинского языка реализована лишь в специальном варианте поставки FineReader 5.0, который можно приобрести в московском или киевском офисе группы компаний ABBYY.
Для работы системы необходим ПК, функционирующий под управлением Windows, выполненный на базе процессора Pentium 133 (или более мощного) и имеющий объем ОЗУ не менее 32 Мб. Полная инсталляция FineReader 5.0 (устанавливаются все распознаваемые языки и все языки интерфейса) требует 132 Мб жесткого диска, а минимальная (интерфейс - русский, языки распознавания - русский и английский) - 35 Мб. Возможна также инсталляция лишь тех компонентов, которые необходимы пользователю.
В комплект поставки FineReader 5.0 входят: красочная коробка, установочный компакт-диск, стартовая дискета (для превращения испытательной версии в полнофункциональную), 88-страничное руководство пользователя и регистрационная карточка. Впрочем, зарегистрироваться в качестве легального пользователя можно и с помощью корпоративного сайта - программа инсталляции в конце своей работы сама подводит вас к нужной страничке.
И последнее. Господа пользователи! Помните, приобретая нелицензионные копии, вы не только нарушаете авторские права разработчика, но и лишаете его возможности совершенствовать свои продукты! Согласитесь: не так много наукоемких отечественных программ заслужили мировое признание (за два года существования FineReader 4.0 победил во всех сравнительных - на точность распознавания - тестированиях и получил 28 наград авторитетнейших международных компьютерных изданий), и будет очень грустно, если из-за вашей несознательности творцам этих продуктов придется сменить либо место жительства, либо характер работы (либо и то и другое).
ABBYY Software House: (095) 234-4400.
Три кита, на которых стоит FineReader 5.0
Очередное детище ABBYY Software House базируется на трех основных принципах: целостность, целенаправленность и адаптивность. Первый из них заключается в том, что система воспринимает распознаваемый объект как набор определенных элементов и связей между ними. Система узнает объект только в том случае, если наличествуют все необходимые элементы и связи. Принцип целенаправленности строится на выдвижении и целенаправленной проверке гипотез. FineReader при проверке гипотезы ориентируется не на то, что изображено на документе, а на то, что ожидается от изображения. Принцип же адаптивности представляет собой не что иное, как способность системы к самообучению.