Одним их ключевых аспектов создания систем управления контентом (ECM) предприятия являются задачи, описываемые английском термином capture, который на русский язык переводится как “захват” или просто “ввод” документов. Традиционно это направление связывалось с вопросами преобразования бумажных документов в электронный формат, включая сканирование и распознавание текста. В последние годы мы видим, что электронные документы все больше места занимают в нашей жизни — и деловой, и частной. Но можно констатировать и то, что актуальность задач capture не уменьшается, а соответствующие средства и технологии продолжают развиваться. О том, что происходит на рынке ввода документов, обозреватель PC Week/RE Андрей Колесов беседует с генеральным директором компании “ABBYY Россия” Григорием Липичем.
PC Week: Как вы определили бы само понятие capture, его смысловое содержание?
Григорий Липич: Точного аналога в российской документоведческой терминологии, кажется, просто нет. Можно сразу сказать, что операции сканирования и распознавания — это только часть комплекса задач capture. Возможно, даже слово “захват” тут больше подходит, чем “ввод”. Я бы определил capture как комплекс задач и технологий, связанных с преобразованием информационных объектов, существующих вне конкретной системы управления документами, в объекты этой системы. Простой пример — обработка бумажных документов, которые после сканирования, распознавания и регистрации становятся документами СЭД. Но это могут быть и задачи по “вводу” сообщений электронной почты, чтобы они и их атрибуты попали в ведение СЭД.
PC Week: Все составные части ECM-системы важны, и все же как изменяется роль capture в общем комплексе ECM-задач? С увеличением доли электронных документов она должна, наверное, снижаться?
Г. Л.: Нет, она скорее возрастает. Данные такого авторитетного исследователя этого рынка, как Harvey Spencer Associates, говорят, что несмотря на активное внедрение ИТ, до конца прошлого столетия в США наблюдался устойчивый рост потребления бумаги — примерно с 2 млн. тонн в 1980 г. до 5,8 млн. тонн в 2000-м (из них 0,8 млн. пришлось на домашних пользователей). И лишь в последнее десятилетие началось сокращение: в 2010 г. эта величина оценивалась в 5 млн. тонн, из них 1 млн. пришелся на долю частных лиц. Но объемы сканируемых бумажных носителей продолжают расти. Это связано с повышением уровня проникновения автоматизации в бизнес. Ведь раньше многие бумажные процессы не попадали в зону внимания автоматизации, а сейчас и до них доходит очередь. Растут и продажи аппаратных и программных средств для решения задач “захвата”, причем темпы этого роста выше средних показателей роста ИТ- рынка.
Дело в том, что хотя в документообороте быстро увеличивается доля электронных документов, для их обработки в ECM-системах часто используются именно capture-продукты, например, при работе с сообщениями электронной почты или PDF-файлами. Ведь задача заключается не в том, чтобы провести банальную регистрацию документа, а в том, чтобы “вынуть” из него содержательную информацию. Например, выбрать из почтового сообщения данные отправителя или какие-то отдельные поля письма.
PC Week: Но, казалось бы, эту информацию можно вытащить из письма чисто программными способами?
Г. Л.: Вот именно — “казалось бы”. А на практике бывает проще преобразовать почтовое сообщение в графический образ и уже оттуда по готовым шаблонам выбрать нужную информацию. Ведь чаще всего компания ведет и бумажную, и электронную переписку. Для бумажных писем уже давно существуют так называемые “почтовые приложения”, которые по установленным правилам обеспечивают классификацию и ввод бумажной корреспонденции в ИТ-систему. Так как в электронной почте есть смесь из отсканированных изображений, PDF-файлов, факсов и обычных текстовых писем, то получается, что выгоднее использовать готовые приложения для обработки почты, чем писать что-то специальное.
PC Week: А какова ситуация в России?
Г. Л.: У нас доля бумажных документов в документообороте заметно выше, чем в США. Думаю, что в России точка снижения потребления бумаги еще не пройдена. При этом использование СЭД быстро растет, расширяется круг решаемых задач. Например, если еще недавно основной объем использования СЭД был связан с организационно-распорядительным документооборотом, то в последние годы быстро развивается направление работы с финансовыми документами. По большому счету массовый перевод бумажных архивов в электронный вид еще только впереди. Так что у нас для задач capture — просто огромные перспективы.
Но в тактическом плане по нашему рынку сильно ударил кризис. Ведь задачи обработки документов в большинстве компаний относятся к проблемам более низкой степени значимости для бизнеса. Реализация таких проектов требует планирования, денег и времени. В 2009 г. многие проекты в этой сфере оказались замороженными, новые начинались довольно редко. Но уже в конце 2010-го ситуация стала быстро улучшаться. Многие крупные заказчики объявили о возобновлении проектов и начале новых. По этому году мы видим, что сделанные тогда обещания выполняются.
Во время кризиса в США наблюдалась иная реакция на экономические проблемы. У них не столько сокращали затраты на ИТ, сколько с помощью ИТ пытались снизить издержки. Там было даже некоторое повышение интереса к проектам по переводу бумажных процессов в электронный вид. Как раз в кризис у нас начался интересный проект с крупной международной компанией, которая решила модернизировать уже существующую capture-систему, чтобы достичь большей глубины обработки документов, выбирать из них больше информации и лучше ее структурировать. Проект начался с пилотной фазы в России, а теперь заказчик намерен тиражировать его в других странах.
Однако нестабильность последних месяцев на финансовых рынках вносит новые риски. Помимо угрозы для экономики в целом тут проблема еще и в том, что финансовый сектор является одним из ключевых заказчиков capture-проектов. В России значимость банковского сектора для этого рынка даже выше, чем в среднем по миру. Правда в последние годы повышается роль страхового бизнеса, но тут активность пока видна лишь на уровне самых крупных игроков. Кстати, в мире быстро растет доля среднего и малого бизнеса среди заказчиков, но в России эта тенденция не очень видна.
PC Week: А государственный сектор? Что там происходит, учитывая, что страны движутся в направлении построения информационного общества?
Г. Л.: Активность наблюдается, но сейчас она видна скорее на некотором концептуальном уровне. Мне кажется, тот же перевод государственных услуг в электронный вид еще не привел к заметному снижению бумажного документооборота. В то же время нужно отметить позитивные тенденции. В сферу автоматизации попадают направления, раньше стоявшие вне поля зрения ИТ.
Однако из-за того, что в госпроектах промежуток времени от идеи проекта до реализации “пилота” заметно больше, чем в частном бизнесе, движение госсектора в направлении использования современных ИТ идет медленнее чем хотелось бы.
PC Week: Еще одно важное направление перевода процессов в электронный вид — счета-фактуры. Еще летом прошлого года был введен в действие соответствующий закон, и начала активного перехода ожидали в этом году. Оправдываются ли эти прогнозы?
Г. Л.: Ситуация непростая, и пока, кажется, больше разговоров, чем дел. Даже в странах, вполне передовых в плане ИТ, где нормативные условия для использования таких электронных документов уже давно есть, наблюдается весьма пёстрая картина. По оценкам компании Itella, по состоянию на начало осени 2011 г. в Европе лидером является Финляндия, у которой 27% полностью “электронных” счетов-фактур. Кстати, Россия в этом отчете имеет 7%, что больше, чем во многих других европейских странах, например в Чехии (2%) и Польше (5%). Но тут речь идет о механизмах класса EDI (обмен электронными данными). В Западной Европе широко используется передача электронных версий счетов по электронной почте, что является вполне юридически значимым вариантом. Хотя для обработки таких документов, выборки оттуда нужной информации необходимы средства класса capture, как и для бумажных документов. Что касается России, то тут электронные счета уже используются некоторыми крупными компаниями, например Metro, но все же это пока не общая практика.
PC Week: Что можно сказать о развитии собственно технологий capture? Можно ли, например, говорить о повышении качества распознавания, о снижении времени на обработку?
Г. Л.: Конечно, прогресс есть, но не такой стремительный, как это было в 1990-е. Меняются сценарии работы, если раньше бумагу чаще собирали и привозили в центр сканирования, то сейчас точки сканирования приближаются к местам возникновения документов. Программные решения сегодня больше нацелены на реализацию распределенных проектов. Также востребована распределенная обработка документов, когда люди, проводящие проверку целостности информации в распознанных документах, могут находиться в другом офисе, городе или стране по отношению к месту нахождения самих документов.
Еще одна тенденция — переход к гибким формам документов. Десять лет назад почти все проекты были связаны с обработкой жестких форм, когда не только логическая, но и физическая структура обрабатываемых документов должна была быть одинаковой, то есть два разных документа должны были совпадать на просвет. А сейчас никого не удивишь работой с гибкими формами. Например, у счетов-фактур есть одинаковые элементы: номер, поставщик, получатель, и т. д., и похожая логика расположения таких элементов, но счета-фактуры разных поставщиков выглядят по-разному. Следовательно, современные средства ввода должны уметь понимать логику документов и правильным образом настраиваться. Надо сказать и об обучении, в том числе самообучении системы распознавания новым типам документов, как раз над качественным решением этой задачи больше всего сейчас работают производители.
PC Week: Что можно сказать об использовании для задач capture фотокамер — автономных и мобильных телефонов?
Г. Л.: Люди все активнее переходят на смартфоны, а мы, разрабатывая технологии мобильного распознавания текста, делаем так, чтобы камера становилась еще одним средством ввода информации в телефон, наравне с сенсорным экраном и клавиатурой. Например, современный смартфон может снять надпись на иностранном языке, распознать ее и показать перевод. Или можно распознать e-mail и отправить по нему письмо, распознать номер телефона, позвонить по нему или отправить SMS и т. д. Такие простые операции смартфоны могут выполнять самостоятельно, без передачи изображения в сеть. Обычно это востребовано в продуктах для индивидуального применения.
Для решения деловых задач нужна более сложная логика обработки информации. Здесь приемлем гибридный подход, когда изображение можно получить при помощи телефона или цифровой камеры, а обработать на сервере. При этом, говоря о задачах ввода, обычно выделяют два сценария: пакетный, когда документы сначала собираются, а потом где-то в бэк-офисе обрабатываются, и транзакционный, когда обработка должна выполняться во фронт-офисе, например, в точке контакта с клиентом. Именно во втором сценарии мобильные фотографии пользуются все большей популярностью. Для таких потребностей мы разработали набор средств ABBYY Mobile DataCapture Solutions, они позволяют на месте сделать картинку, улучшить ее, а затем передать на сервер для обработки там с учетом правил и логики конкретного бизнес-процесса. Например, такие инструменты могут применять аварийные комиссары страховых компаний, оформляя документы при осмотре транспортных средств.
PC Week: Для мобильных сценариев работы очень хорошо должны подходить схемы аутсорсинга и облачные модели…
Г. Л.: Да, конечно, интерес к облачным моделям на рынке capture растет. Но в России он не столь высок как на Западе. Видимо сказывается более низкое проникновение Интернет и качество доступа к Сети, а также более низкий уровень готовности клиентов к аутсорсингу ПО и услуг.
PC Week: Спасибо за беседу.