ABBYY Software House (www.abbyy.ru) и армянское отделение института “Открытое общество” (www.osi.am) сообщили о создании первой коммерческой OCR, “понимающей” три варианта армянского языка - восточный и западный диалекты, а также грабар.
Напомним, что армянский относится к семейству индоевропейских языков. Старый литературный язык - грабар - в настоящее время используется только как культовый. У современного же литературного языка два диалекта - восточный, или ереванский, на котором говорят в Армении, и западный, распространенный на Ближнем Востоке, в Западной Европе и США. Всего носителей языка - около 7 млн. человек.
Проект был начат осенью 1998 г., когда OSI AF Armenia (Open Society Institute Assistance Foundation - Armenia) объявил тендер на разработку системы оптического распознавания для армянского языка и морфологических словарей для всех трех вариантов. Сумма гранта составила около 60 тыс. долл. В начале 1999 г. было объявлено, что победителем тендера - в нем участвовали различные научно-исследовательские организации и коммерческие компании - стала фирма ABBYY. К январю 2000-го была закончена разработка модулей поддержки армянского языка, и в июле ABBYY получила официальное письмо о том, что работа по данному гранту принята OSI AF Armenia.
Итак, если раньше разработанный ABBYY Software House пакет FineReader распознавал языки трех алфавитов: кириллического, латинского и греческого, - то теперь он “понимает” новый для себя алфавит. Это серьезный лингвистический прорыв, если принять во внимание, что два из этих трех языков (западный и грабар) до сих пор не исследовались с морфологической точки зрения. Для решения этой задачи в Армении была образована группа высококвалифицированных лингвистов, которые взаимодействовали с основной группой разработчиков, находящейся в Москве; работа велась с использованием Интернет-технологий.
Новинка будет включена в пакет FineReader 5.0 (он “знает” 176 языков), который появится в продаже осенью этого года.
ABBYY Software House: (095) 234-4400.
OSI AF Armenia: (374) 254-2119.