Автоматизированная обработка бумажных документов с помощью средств потокового и оптического распознавания содержания — задача на ИТ-рынке хорошо известная и, казалось бы, уже ставшая рутинной и для ИТ-поставщиков, и для заказчиков. Однако при более внимательном ознакомлении с положением дел становится очевидным, что уровень проникновения подобных технологий в реальную жизнь организаций еще очень далек от 100%. Проблема тут во многом заключается в том, что, несмотря на ширящееся использование электронных методов работы с информацией, объем применяемых бумажных документов в абсолютном выражении на практике не только не уменьшается, но и возрастает. Причем происходит это вследствие роста объемов обрабатываемых данных.
Например, наша система образования — и средняя, и высшая школа — все больше использует методы тестирования для оценки знаний учащихся. Такой подход существенно упрощает процедуру собственно выведения оценки (это сводится к довольно банальной арифметической обработке данных, но при этом нужно отметить, что роль человека в этом процессе только возрастает, поскольку именно он составляет вопросники), но объем получаемых для этого данных растет.
Именно с такой проблемой, как и многие другие российские вузы, еще несколько лет назад столкнулась Московская финансово-юридическая академия (МФЮА). Переход страны на методы единого государственного экзамена (ЕГЭ) потребовал проведения аналогичных репетиционных тестов для потенциальных абитуриентов. Более того, такие методы уже начали применяться и в основном учебном процессе, и стало вполне очевидно, что их использование будет расширяться. Объем обработки бумажных анкет быстро повышался с явной тенденцией к дальнейшему росту. Именно поэтому руководство МФЮА еще в 2009 г. решило начать использовать средства потокового ввода для решения этой задачи.
“В последние годы многие вузы стали проводить тестирование студентов. Об эффективности таких способов оценки знаний идут методические споры, но при этом часто забывается, что на пути их практического применения возникают серьезные проблемы, — пояснил проректор МФЮА по информационным технологиям Георгий Горшков. — Подготовка самих анкет — это серьезная методическая работа, а обработка заполненных форм достаточно трудоемка. Я знаю, что многие вузы пока тут действуют по старинке, вручную. Мы же сразу решили пойти по пути автоматизации, понимая, что объемы такой деятельности будут только расти”.
Проблема выбора необходимых технологий была решена без особого труда: в академии уже обращались к ПО компании ABBYY, которая считается одним из лидеров в области потокового ввода и оптического распознавания документов не только в России, но и в мире. После тщательного изучения технологии и сравнения систем автоматизированной обработки экзаменационных бланков был выбран комплекс автоматизированного ввода данных ABBYY FormReader 6.5 Enterprise Edition, уже давно хорошо зарекомендовавший себя на рынке и имеющий не только хороший встроенный функционал, но и гибкие возможности настройки и расширения, позволяющие решать весь спектр необходимых задач.
Проект стартовал два года назад, тогда была произведена закупка и установка ПО, разработка первых шаблонов, обучение группы сотрудников академии. Настройка и внедрение выполнялись специалистами соответствующего ИТ-подразделения МФЮА. Используя имеющиеся в FormReader механизмы интеграции и расширения, программисты вуза создали специфические модули, помогающие оптимально решать конкретные задачи, а также выполнили стыковку средств ввода и распознавания документов с учетными системами и базами данных. Возникавшие проблемы решались оперативно , в случае необходимости — при консультационной поддержке сотрудников ABBYY. Пилотный вариант системы для проведения первого массового тестирования был реализован всего за две недели.
После опробования созданной системы на первом проекте по анкетированию студентов она стала применяться и для других аналогичных целей. По словам Георгия Горшкова, при количестве тестируемых, даже превышающем 10 000 человек, на весь процесс от начала проведения экзамена до объявления оценок сейчас требуется всего 50 часов.
На первом этапе каждого нового проекта по анкетированию утверждается сама его идея. Затем создается анкета (в среднем — 10 вопросов с набором вариантов ответов), утверждается ее внешний вид, производится соответствующая настройка самой программы. И наконец, третий этап — это непосредственно анкетирование, обработка анкет и предоставление отчета.
Анкетирование в академии уже давно ведется круглогодично. В настоящее время в среднем обрабатывается около 10 тыс. анкет в месяц. Этим занимается отдел тестирования и контроля качества преподавания академии, в котором есть подразделение, непосредственно выполняющее обработку и публикацию результатов. Анкеты сначала централизованно сканируются, затем за дело берутся операторы-верификаторы на шести рабочих станциях. Полученные данные автоматически передаются в соответствующие приложения, но часть сведений все же может заноситься в базу данных вручную. “Оценки” выставляются автоматически на основе заложенных алгоритмов обработки.
Комплекс ABBYY FormReader выполняет в потоковом режиме обработку заполненных от руки форм, содержащих идентификационные данные студента, ответы на тесты и другую информацию — до 1000 бланков в час. После завершения сканирования система автоматически проверяет и корректирует полученные изображения, распознаёт данные и сохраняет их в удобных форматах. По оценкам MФЮА, ручная выверка получаемых сведений не превосходит 2% от общего объема данных. На весь процесс тестирования от начала проведения экзамена и до объявления оценок сейчас требуется всего 50 часов. Для тестирования перед итоговой государственной аттестацией бланки сканируются непосредственно на учебных корпусах, передаются по сети на верификацию и экспорт. Заполненные именные бланки обрабатываются в реальном времени.
Вся эта система применятся в академии не только для проведения экзаменов, но и для других видов анкетирования, например, анонимных опросов студентов для составления рейтингов преподавателей по дисциплинам. С помощью этих же средств решаются также задачи автоматизации бухгалтерской и хозяйственной деятельности вуза (ввод данных с финансовых документов, в том числе счетов-фактур и накладных).
При этом Георгий Горшков отмечает еще одно важное достоинство FormReader — его гибкость в работе с бумажными носителями: “Мы не переделывали ведомости под тип документов, требуемый системе распознавания, а использовали текущий вид документа, который формируется у нас в системе “1С”. Мы смогли настроить программу таким образом, чтобы обрабатывать именно тот вид ведомостей, который уже есть в нашей академии”.
И все же возникает один важный вопрос: зачем в принципе нужны промежуточные бумажные носители? Не проще ли проводить анкетирование с помощью ПК и других клиентских устройств, исключив как таковую процедуру преобразования данных?
Отвечая на этот вопрос, Георгий Горшков пояснил, что существует постоянный компромисс между мобильностью систем анкетирования и подлинностью получаемых данных Можно обеспечить 100%-ное участие в анкетировании в короткий экзаменационный период, но для этого необходимо оборудовать аудитории системами экспресс-опроса или компьютерами. Соответственно нужны полная привязка к месту и значительные инвестиции. Другой вариант — использовать интранет-портал или системы дистанционного обучения. Здесь тоже проводится анкетирование, но опыт показывает, что заставить всех поголовно, да еще и в сжатые сроки участвовать в опросах весьма затруднительно. Во-вторых, сложно исключить плагиат. Конечно, для проведения экзаменов мы используем специальные компьютерные классы, но при большом контингенте это оказывается достаточно дорогим вариантом. Впрочем, некоторые виды тестирования (например, сотрудников академии с целью получения обратной связи по учебным и производственным вопросам) выполняются через Web-портал с помощью технологий “1С-Битрикс” и Microsoft SharePoint.
Еще один важный момент — требования законодательства (точнее, существующая юридическая неопределенность с пониманием “электронного документа”) и, что еще важнее, менталитет как студентов, так и преподавателей. Например, порой результаты тестирования вызывают у некоторых людей сомнения в их правильности. Чтобы разрешить эту ситуацию бывает необходимо более детально изучить исходные документы, заполненные анкеты. Это проще делать с бумажными носителями. К тому же нужно учитывать, что технологии сканирования и распознавания применяются не только для анкетирования. Помимо автоматизации текущей хозяйственной деятельности с их помощью выполняется перевод в электронный вид документов, в том числе архивных, которые нужны для формирования полноценной информационной системы МФЮА.
Но при этом Георгий Горшков подчеркнул, что стратегический курс академии — переход на полностью безбумажный документооборот, признание в качестве первичных именно электронных документов не за горами: “Решение технических, организационных, юридических и чисто человеческих вопросов при переходе на электронные формы работы — это дело времени, причем довольно близкого. Например, вначале довольно часто хотелось перепроверить исходные документы, сейчас такое желание возникает намного реже. Основной архив анкет хранится постоянно в электронном виде, бумажные носители — в пределах полугода”.