Корпорация IBM и Европейский Союз расширили исследовательское партнерство, направленное на создание новой технологии, которая позволит с высокой точностью и на массовой основе преобразовывать в цифровую форму исторически и культурно значимые текстовые материалы.
Предполагается, что в отличие от предыдущих проектов по оцифровке текстов, результаты которых оказались статичными и не получили дальнейшего развития, эта инициатива, получившая название IMPACT (IMProving ACcess to Text; “улучшение доступа к тестам”) позволит разработать новые инструменты и методики, которые дадут возможность создавать высококачественные цифровые копии редких исторических текстов, размещать их в Интернете и делать широко доступными для поиска и онлайнового редактирования.
Идея состоит в том, чтобы объединить возможности инновационного Web-ориентированного ПО для адаптивного оптического распознавания символов с мощью технологии crowd computing, основанной на совместном использовании коллективных знаний, навыков и опыта многочисленных групп людей. Предполагается, что такой подход позволит заинтересованным сторонам впервые адаптировать процедуры оцифровки и распознавания текста к особенностям древних шрифтов, к искажениям и аномалиям, и даже к специфическим терминам и лексике и при этом сократить частоту появления ошибок на 35%, замещений и подстановок символов и сочетаний символов — на 75%.
Технологии распознавания справляются с современными печатными текстами, однако старые выцветшие чернила и типографская краска, необычная форма древних шрифтов могут значительно снизить точность распознавания, что потребует огромных усилий по вычитке и правке. Поэтому для крупномасштабных проектов по преобразованию текстов в цифровую форму особенно важным является коренное улучшение качества первоначального оптического распознавания текста и максимально возможное сокращение последующей ручной обработки.
Основу нынешнего проекта составляет уникальная система коллективной корректуры, разработанная исследователями IBM, которая через интерактивный Web-интерфейс облегчает большим группам добровольцев-корректоров проверку правильности текста и исправление ошибок. Кроме того, система обладает способностью самообучения и автоматической адаптации к специфике шрифтов.