ПЕРВЫЙ ВЗГЛЯД
Ведущие российские разработчики систем машинного перевода выпустили в этом году очередные версии своего ПО. Но если компания “ПроМТ” обновила практически всю линейку своих основных продуктов, то фирма “Арсеналъ” ограничилась выпуском нового браузера-переводчика “Сократ Интернет 2”. Редакция PC Week/RE ознакомилась с программным комплексом PROMT Translation Office 2000 и браузером фирмы “Арсеналъ”. Мы испытали эти программы на ряде текстов широкой тематики - от политических новостей и содержимого личных Web-страниц в Интернете до технических инструкций и описаний программных средств.
PROMT Translation Office 2000
Пакет PROMT Translation Office 2000, продолжающий линейку систем машинного перевода PROMT 98 и Stylus, впервые был представлен компанией “ПроМТ” на выставке “Комтек-2000”. Как и в предыдущей версии системы, в новом пакете объединены: интегрированная среда переводчика PROMT, браузер-переводчик WebView, средство перевода неформатированных текстов Qtrans, утилита для перевода содержимого Буфера обмена Windows Clipboard Translator, надстройка к Microsoft Office 97/2000, реализующая функцию перевода в программах Word и Excel. Кроме того, в комплект поставки входит утилита для редактирования словарей Dictionary Editor.
PROMT 2000 позволяет выбрать вариант перевода слова с несколькими значениями
Варианты поставки, включающие пару языков (русский - английский), комплектуются, помимо встроенных в программу словарей “для внутреннего пользования программы”, еще и отдельным двуязычным электронным словарем. Этот словарь содержит более миллиона статей с лексикой из нескольких десятков предметных областей, а также грамматическую информацию. Для запуска модулей пакета служит утилита “Интегратор”, встраиваемая в системный лоток Windows.
Во всех компонентах PROMT 2000 усилена интеграция с Интернетом и технологиями Microsoft. Теперь среда PROMT работает с документами практически всех программ, входящих в Office 2000.
По сравнению с PROMT 98 более гибкой стала процедура инсталляции, усилены меры защиты от несанкционированного копирования: вместе с PROMT 2000 поставляется электронный ключ HardLock (к сожалению, это создает некоторые неудобства, в частности, имеющийся у нас ключ оказался “непрозрачным”: его установка вызывает сбой в работе сканера, подключенного к параллельному порту).
Среда переводчика PROMT. Это главное приложение набора PROMT Translation Office 2000, предназначенное для перевода документов в форматах TXT, Word, HTML и RTF. Среда представляет собой мощный текстовый процессор, снабженный панелями инструментов в стиле Microsoft Word и средствами для перевода текстов и пополнения словарей. В рабочей области отображаются исходный текст и перевод. В новой версии окно программы содержит дополнительную отключаемую панель и несколько экранных вкладок для управления системой словарей. Предусмотрена гибкая настройка всех элементов пользовательского интерфейса.
Программа позволяет переводить текст как целиком, так и отдельными фразами или абзацами. Встретив слово, имеющее несколько значений, PROMT вставляет в конечный текст основной вариант перевода, а следом за ним, в скобках, остальные. Для устранения неоднозначности следует воспользоваться командой “Варианты” в контекстном меню. В документации описана новая функция Text-to-speech, предназначенная для озвучивания переведенных документов, но для ее работы необходима внешняя программа синтеза речи (в испытанном нами пакете ее не было).
Имеется гибкое средство пополнения пользовательских словарей, которое может работать в двух режимах: упрощенном (для неспециалистов) и полном, позволяющем досконально определить грамматические характеристики вводимого слова. К пакету прилагается весьма основательная документация, а вот справочная система PROMT показалась нам недостаточно подробной.
Говоря собственно о главном назначении программы, прежде всего следует упомянуть, что в новой версии PROMT был расширен ассортимент направлений перевода: в дополнение к парам, включающим сочетания русского с английским, французским или немецким, появилась пара русский - итальянский, правда, с возможностью перевода только на русский. Полный набор направлений перевода представлен в пакете PROMT 2000 “Гигант”, можно приобретать и отдельные модули для работы с одной парой, а также дополнительные тематические словари, список которых весьма обширен.
Появились достаточно удобные инструменты настройки шаблонов тематики перевода, основанные на задании характерных слов.
Качество перевода по сравнению с предыдущей версией изменилось несущественно. Впрочем, мы заметили ряд исправлений в словарях системы. Эти словари, как и добротные морфологические алгоритмы для анализа исходных и синтеза конечных текстов, традиционно были сильной стороной системы PROMT, хотя для разных языковых пар полнота и качество словарей различаются.
Браузер-переводчик WebView. Данное средство перевода Web-сайтов позволяет просматривать одновременно оригинал страницы и ее перевод. Программа базируется на механизме Internet Explorer и обеспечивает полное сохранение форматирования HTML при переводе. Предусмотрены все стандартные операции с документами - печать, помещение в Буфер обмена, сохранение на диске и т. п. - как для оригинала, так и для перевода. Интерфейс программы также сохраняет все основные функции Internet Explorer, в том числе для работы с “избранными” ссылками. В новую версию добавлены функции настройки и сохранения параметров перевода и шаблонов тематик.
Словарь, входящий в состав PROMT 2000, содержит немало грамматической информации
Qtrans, Clipboard Translator, R-Express. Эти небольшие утилиты позволяют переводить простой текст в случаях, когда запуск довольно громоздкого приложения PROMT 2000 нецелесообразен. Qtrans - редактор-переводчик неформатированного текста, по интерфейсу похожий на Блокнот Windows. В программе имеется функция “Синхронный перевод”, позволяющая набирать текст и сразу видеть его перевод.
Утилита Clipboard Translator переводит содержимое Буфера обмена и заменяет его исходное содержимое переведенным фрагментом.
R-Express (предыдущая версия программы называлась WebTranSite 98) при запуске создает на экране всплывающую кнопочную панель, на которую можно перетаскивать мышью фрагменты текста, который будет переведен в соответствии с выбранными параметрами перевода (перевод появляется во всплывающем окне, позволяющем выделить фрагмент текста). Во всех утилитах используются те же переводческие алгоритмы и словари, что и в PROMT 2000.
“Сократ Интернет 2.1”
Эта программа компании “Арсеналъ” выполняет те же функции, что и браузер-переводчик WebView фирмы ПРОМТ: загружает Web-страницы на исходном языке и переводит их текстовые элементы на другой с полным сохранением оформления и компоновки страниц.
За нынешнее лето “Сократ Интернет” успел выйти в двух редакциях - в июне увидела свет версия 2.0, а в августе - 2.1 (в ней были оптимизированы основные алгоритмы, что позволило повысить быстродействие). Главное отличие “Сократ Интернет 2.x” от версии 1 заключается в расширении ассортимента языковых пар, с которыми работает программа. К имевшейся ранее паре русский - английский добавлены две новые: русский - немецкий и русский - французский (для всех пар возможен перевод в обе стороны, правда, в предоставленной нам копии был недоступен перевод с русского на французский). Кроме того, существенно переработан интерфейс программы. Появилось удобное средство для выбора направления перевода.
Программа “Сократ Интернет” добавляет три кнопки на панель инструментов IE
и одну панель для выбора параметров перевода
Компания “Арсеналъ” предлагает два варианта комплектации своей программы. Первый, “Сократ Интернет полиглот 2.1”, включает три языковые пары и полный набор тематических словарей. Второй, “Сократ Интернет базовый 2.1”, работает только с парой русский - английский и содержит базовый, деловой и компьютерный словари обоих языков. Пользователь может дополнительно приобрести “Сборник тематических словарей для Сократ Интернет базовый 2.1”, в который входит комплект из двенадцати тематических русско-английских и англо-русских словарей (юридический, банковский, медицинский и т. п.).
В отличие от WebView программа фирмы “Арсеналъ” прозрачно встраивается в браузер Microsoft Internet Explorer (IE) версий 5.x, добавляя на инструментальную панель браузера несколько кнопок и позволяя открывать в окне IE дополнительные панели для настройки системы перевода, в частности для выбора словаря и направления перевода. Возможны два режима обработки исходного текста - “пакетный” (для перевода всего текста) и поабзацный. Предусмотрен также удобный перевод выделенного фрагмента текста.
В прошлой версии “Сократ Интернет” (равно как и в других системах перевода фирмы “Арсеналъ”) очень бросалось в глаза несовершенство морфологического инструментария для анализа и синтеза текста, программа выдавала несуществующие глагольные формы. В новой версии этот недостаток частично исправлен (хотя и сейчас изредка встречаются “неологизмы” типа “былся”), но программа по-прежнему часто теряет такие параметры слов исходного текста, как число и род существительных, признаки времени и числа глаголов и т. п. Из-за этого нарушается синтаксическая и смысловая связь слов.
Ошибки “Сократа” при анализе формы исходного слова внешне выглядят как недостаток встроенного словаря. К примеру, “Сократ”, в отличие от конкурента, при переводе с русского текста по истории оставляет непереведенными слова “погибшего”, “довольствуясь”, “дворян”. При этом программа знает слова “дворянин”, “погибнуть”, “довольствоваться” (аналогичная неспособность распознать производные формы слов проявляется также при работе с французскими и немецкими текстами). Справедливости ради заметим, что есть и обратные случаи, когда “Сократ” удовлетворительно переводит слова, не узнанные программой PROMT, но эти случаи более редки и объясняются именно пробелами в словарях PROMT.
Существенным недостатком продукта фирмы “Арсеналъ” мы считаем невозможность пополнять словари.
Нам показалось, что анализ структуры HTML и перевод страниц производятся в “Сократе” быстрее, чем в WebView, но качество перевода при этом обычно получается хуже. В среднем программы семейства PROMT выдают более “правильные” (в смысле грамматики и соответствия исходному тексту) фразы, однако в отдельных случаях “Сократ” все же вернее передает смысл оригинала.
В заключение - несколько соображений по поводу применимости нынешних систем автоматического перевода. Наиболее эффективно использование таких систем в случаях, когда исходные тексты составляются с расчетом на автоматический перевод. Как известно, подобный подход уже применяется в ряде корпораций, работающих с однотипными документами на нескольких языках. От сотрудников требуется употреблять в документах простые, однозначные слова и выражения, ограничиваться простыми фразами с прямым порядком слов и без вводных конструкций и придаточных предложений. Разумеется, эти условия в реальной практике встречаются редко. Однако авторы Web-сайтов, не владеющие иностранными языками, но желающие сделать свои творения интернациональными, могут существенно улучшить качество переводов, если будут придерживаться упомянутого принципа простоты. При должной настройке тематики качество также повышается, но зачастую текст относится сразу к нескольким темам и настройка не помогает.
Ниже приведен пример перевода газетной статьи, сделанный WebView и “Сократом” (в обеих программах использовались настройки по умолчанию).
Оригинал
Police in New Zealand have foiled an apparent terrorist plot targeting a nuclear reactor during this year’s Sydney, Australia, Olympics, the New Zealand Herald reported Saturday. Police raids in March on a suspected people-smuggling operation in Auckland uncovered the plot, New Zealand police spokesman Bill Bishop told CNN.
Вариант профессионального переводчика
В субботу газета New Zealand Herald сообщила о раскрытии заговора, целью которого было совершение террористического акта на ядерном реакторе во время Олимпийских игр, проходящих в этом году в Сиднее. Как сообщил CNN представитель полиции Билл Бишоп, заговор был обнаружен в ходе полицейских рейдов в Окленде, проводившихся в марте в рамках операции против лиц, подозреваемых в контрабанде людей.
Вариант WebView
Полиция в Новой Зеландии помешала очевидному террористическому заговору (участку), планирующему ядерный реактор в течение этого годового Сиднея, Австралии, Олимпийских игр, Новозеландский Геральд, сообщенный в субботу. Полицейские набеги в марте на подозреваемом действии контрабанды людей в Окленде раскрыли заговор (участок), Новозеландский полицейский представитель Билл Епископ, сказанный СИ-ЭН-ЭН.
Вариант “Сократ Интернет”
Полиция в Новозеландской Зеландии расстроили явный террористический график, намечающий ядерный реактор в течение этого летнего Сиднея, Австралии, Олимпийские игры, Новозеландский Зеландия Herald сообщенное В субботу. Полицейские налеты в Марте на подозрительных людях-контрабанде действия в Auckland открывали график, полицейский представитель Епископа Новозеландской Зеландии Билла сообщали СИ-ЭН-ЭН.
PROMT Translation Office 2000
Системные требования: Компьютер с процессором P166; 32 Мб ОЗУ; 160 Мб на жестком диске; видеоадаптер SVGA; привод CDROM (для инсталляции); параллельный или USB-порт для ключа защиты.
Windows 98, Windows NT 4.0 SP3 или Windows 2000 Professional (версии с поддержкой русского языка и русскими региональными установками); Microsoft Internet Explorer 5.x (входит в поставку).
Цена: PROMT 2000 “Гигант” (четыре пары языков) - 450 долл.; одна пара языков - 300 долл. Коллекции тематических словарей - от 40 до 200 долл.
“Сократ Интернет 2.1”
Системные требования: соответствуют требованиям к ОС Windows 98.
Цена: вариант “Полиглот” (с тремя парами языков) - 25 долл.; вариант “Базовый” (одна пара) - 10 долл.
“Арсеналъ”: (095) 974-7989; адрес: www.ars.ru.