Статья только в электронной версии журнала
Технологии автоматизированного машинного перевода (МП) принято ругать за то, что перевод произвольно взятого текста сильно отличается от оригинала. Тем не менее технологии эти весьма востребованы. И не только там, где они наиболее эффективны - например, при обработке больших массивов однородной технической документации, где важно обеспечить единство терминологии. Достаточно сказать, что только на сайте www.translate.ru услугами бесплатного перевода (по 17 возможным направлениям) ежедневно пользуются в среднем около 35 тыс. уникальных пользователей из самых разных уголков земного шара. “Чтение отзывов о работе этого сайта - увлекательнейшее занятие, - утверждает менеджер по маркетингу петербургсокй фирмы ПРОМТ Александр Андреев. - Так, один из посетителей этого Web-сервера прислал нам возмущенное письмо о том, что его послание заокеанскому другу, содержащее всего-то десять слов, было переведено совершенно неправильно и вызвало глубокое недоумение адресата. В качестве вещественного доказательства вины сайта он прислал оригинал своего послания и результат его трансляции. Когда исходный текст стали анализировать, то выяснилось, что из десяти слов восемь были написаны с грамматическими ошибками.
Михаил Каничев: “Переход от PROMT 2000 к
PROMT XT потребовал от наших специалистов
примерно 80 человеко-лет напряженного труда”
А вот другой случай использования www.translate.ru. Удачный. На пустынной дороге Флориды местный водитель-дальнобойщик увидел плачущего мальчика. Ребенок понимал только по-испански. Шофер не растерялся, быстренько забрался с помощью своего компьютера в Сеть и благодаря www.translate.ru смог объяснится с мальчуганом и узнать, где живут его родители. А затем послал организаторам сайта www.translate.ru (петербургской фирме ПРОМТ) благодарственное письмо. Вот какие добрые и ИТ-продвинутые водители бывают на свете!
Скоро качество переводов, осуществляемых благотворительно-рекламным сайтом www.translate.ru, заметно улучшится. Дело в том, что на выставке Комтек-2002 компания ПРОМТ представила новое, шестое по счету, поколение систем машинного перевода, пришедшее на смену PROMT 2000 и названное PROMT XT (пока доступны восемь направлений перевода: англо-русское, русско-английское, немецко-русское, русско-немецкое, французско-русское, русско-французское, испанско-русское и итальянско-русское; объемы соответствующих генеральных словарей приведены в табл. 1). Интересно отметить, что и PROMT 2000 (см. PC Week/RE, № 37/2000, с. 17) и еще более ранняя система PROMT 98 (см. PC Week/RE, № 26/98, с. 34) были также представлены на соответствующих Комтеках.
Таблица 1. Количество словарных статей *1 в генеральных
словарях системы перевода PROMT XT Office
*1. максимально допустимая длина входа сло-
Чем же PROMT XT отличается от выпущенной два года назад системы PROMT 2000? Прежде всего кардинальным улучшением ядра, ответственного за анализ и синтез грамматических конструкций (см. табл. 2, содержащую шесть наиболее типичных примеров). Существенное изменение структуры словарных баз позволило снять ограничения на объем хранимой в них грамматической информации и не только разработать лингвистические алгоритмы нового поколения, но и открыть неограниченные возможности создания более совершенных алгоритмов в будущем. (см. PC Week/RE, № /2002, с. )
Тестирование англо-русского направления перевода, проведенное специалистами ПРОМТ с использованием базы данных, содержащей грамматические тесты более чем по 20 тематикам (996 147 предложений общим объемом 10 280 913 слов), показало, что 55% предложений этой базы PROMT XT переводит лучше, чем PROMT 2000. Для немецко-русского направления аналогичный показатель составляет 60%, а для французско-русского - 65%.
Второе важное новшество - реализация механизма так называемой ассоциированной памяти (АП), позволяющей хранить (вместе с образцовым переводом, выполненным знатоком данной предметной области) целые предложения или их смысловые сегменты. Это позволяет организовать самообучение системы и значительно улучшить качество переводов по той или иной тематике. Коммерческий директор ПРОМТ Михаил Каничев утверждает, что интеграция методологии автоматизированного перевода с технологией АП служит краеугольным камнем PROMT XT, а ассоциированная память представляет собой аналог базы данных класса Translation Memory, и ее интеграция с системой машинного перевода является абсолютно уникальной разработкой компании ПРОМТ.
Третья изюминка - макросы. Их использование позволяет автоматизировать множество рутинных операций при переводе и последующем редактировании текстов (в том числе мультиязычных). И наконец - поддержка новых входных форматов: PDF и XML (насколько мне известно, другие отечественные системы перевода этих форматов, стремительно набирающих популярность, не понимают). А еще старшие версии PROMT XT допускают интеграцию с системой Translation Memory компании TRADOS (см. PC Week/RE, № 6/2002, с. 27), которую, по словам менеджера ПРОМТ по работе с корпоративными клиентами Елены Косматовой, в нашей стране взяли на вооружение уже около 20 компаний. Все пакеты PROMT XT работают под управлением ОС Windows 98/Me/2000/NT/XT и требуют примерно 250 Мб жесткого диска на одно направление перевода (для хранения словарей и элементов ядра). Минимальный объем ОЗУ - 64 Мб (при использовании ОС Windows 98/Me).
В настоящее время семейство продуктов PROMT XT выглядит следующим образом:
1. PROMT XT Office - полное решение для обработки мультиязычных документов, включающее все возможные сервисы (рекомендованная цена - $300).
2. PROMT XT Standard - система для оперативного перевода документов и электронной почты, включающая лишь базовые услуги ($99).
3. PROMT Internet XT - программа для онлайнового перевода содержимого сайтов и поисковых запросов в Интернете ($49).
Важно отметить, что все три продукта используют одно и то же ядро, обеспечивающее перевод текстов со скоростью примерно 1 Кб/c и одни и те же генеральные словари. Более того, все они допускают подключение как собственных словарей (у словарей PROMT архитектура является открытой), так и коммерческих версий специализированных словарей, разработанных компанией для предыдущих вариантов систем машинного перевода (этих словарей уже около сотни, а их суммарный объем превышает 1,5 млн. словарных статей!).
Нынешняя линейка продуктов ориентирована на российский рынок, уже использующий, по словам Михаила Каничева, около 70 тыс. официальных лицензий на системы PROMT более ранних версий. В ближайших планах компании - реализация линейки PROMT XT в иностранной локализации (за рубежом приобретено около 230 тыс. лицензий на различные версии PROMT, причем примерно треть доходов дает французско-английское направление) для всех 17 направлений перевода и выпуск (ориентировочно в августе) версии PROMT XT Professional, ориентированной, как следует из ее названия, на профессионалов. На сентябрь запланированы выпуски PROMT XT Premium и PROMT XT NET 6.0.
Офисы ПРОМТ: в Санкт-Петербурге - (812) 327-4425; в Москве - (095) 334-1455.
Таблица 2. PROMT XT и PROMT 2000: Сравнение переводов грамматических конструкций
Грамматическая конструкция или правило | Исходный текст | Перевод PROMT XT Office | Перевод PROMT 2000 | Комментарий |
Разрывные обороты
| 1) That would be enough to drive him bananas 2) I dropped him a line | 1) Это было бы достаточно, чтобы свести его с ума 2) Я написал ему | 1) Это было бы достаточно, чтобы вести его бананы 2) Я понизил его линия | Реализация технологии обработки “разрывных оборотов” (глагольных сочетаний с варьирующейся вставкой) предоставляет возможность корректного перевода устойчивых фразеологизмов |
Изменение перевода глагола в зависимости от объекта | 1) He made a great impression upon me 2) I don’t entertain any hope of publication | 1) Он произвел большое впечатление на меня 2) Я не лелею никакой надежды на публикацию | 1) Он сделал большое впечатление на меня 2) Я не развлекаю никакую надежду относительно публикации | Развитие семантических алгоритмов стало тем направлением, движение по которому обеспечивает значительное улучшение качества перевода и придает тексту перевода большую осмысленность |
Анализ ing-форм | 1) I accuse you of being the greatest liar on earth! 2) This was the result of his vowing not to drink today | 1) Я обвиняю Вас в том, что Вы самый большой лгун на земле! 2) Это было результатом того, что он клялся не пить сегодня | 1) Я обвиняю Вас в являющийся самым большим лгуном на земле 2) Это было результат его клянущееся, чтобы не пить сегодня | Обработка ing-форм одна из сложнейших проблем не только при машинном, но и при “человеческом” переводе, так как здесь особенно хорошо видна асимметрия языков |
Пассивные конструкции | 1) Christ was believed in throughout the world 2) Heavy bombing was also reported near the city | 1) В Христа верили во всем мире 2) О тяжелой бомбежке также сообщали около города | 1) Христос верил в во всем мире 2) Тяжело бомбежка была также сообщена около города | При переводе пассивных конструкций проблема также состоит в асимметрии языков - поэтому для адекватного перевода необходим механизм трансформаций |
Временные конструкции, а также конструкции с цифрами и именами собственными
| 1) By mid September, Russia and Australia will be ready to sign a contract 2) Stocks had been 13 per cent lower at midday 3) I am particularly interested in the stories Kipling wrote about the Punjab | 1) К середине сентября, Россия и Австралия будут готовы подписать контракт 2) Акции были на 13 процентов ниже в полдень 3) Я особенно интересуюсь историями, которые Киплинг написал о Пенджабе | 1) Серединой сентября, Россия и Австралия будут готовы подписать контракт 2) Акции были 13 процентов ниже в полдень 3) Я особенно заинтересован историями Kipling, написал о Пенджабе | Адекватная передача временных конструкций с использованием цифр и обработка всевозможных имен собственных особенно важна для понимания текста |
Омонимы | Attempts to bomb or burn synagogues have also been reported in Moscow and Rostov-on-Don | О попытках бомбить или жечь синагоги также сообщили в Москве и Ростове-на-Дону | Пытается бомбить или гореть, синагоги также были сообщены в Москве и Ростове-на-Дону | Английский язык характеризуется большим количеством совпадающих по написанию слов, относящихся к различным частям речи. Правильное определение части речи для таких омографов - одна из главных задач для всех систем МП |