Речевые технологии - область, в которой трудно ожидать чудес даже на выставке крупнейшего масштаба. Связанные с речью вопросы слишком сложны для того, чтобы давать повод к сенсациям; авторы громких сообщений на эту тему традиционно быстро оказываются в неловком положении. От бодрых математических выкладок речевая тематика уводит разработчика в дебри медицинских и психологических проблем, плавно переходящих в глобальные философские вопросы. Две ключевые задачи распознавания речи - достижение стопроцентной точности на ограниченном наборе команд хотя бы для одного дикторского голоса и независимое от диктора распознавание произвольной слитной речи с приемлемым качеством - не решены, несмотря на почти полувековую историю их разработки. Более того, существуют сомнения в принципиальной решаемости обеих задач, поскольку даже человек не всегда может стопроцентно распознать речь собеседника.
Если еще относительно недавно речь рассматривалась как сигнал в диапазоне примерно от 300 до 3500 Гц, обладающий рядом характерных свойств (например, наличием пауз между словами), то с точки зрения современных технологий речь - это прежде всего сигнал, исполненный смысла. Нового подхода требуют не только речевое распознавание и синтез, но даже, как оказалось, такая сугубо техническая задача, как сжатие речи.
Незадолго до выставки было объявлено о слиянии компаний Dragon Systems и Lernout&Hauspie (L&H). Теперь мировая тройка технологических лидеров, обладающих средствами распознавания слитной английской речи произвольного диктора с неограниченным словарным запасом, выглядит так: IBM, L&H, Philips. Может быть, скоро в этом ряду окажется и Microsoft, имеющая необходимый для разработки речевых технологий потенциал и сделавшая в последние годы несколько громких заявлений. Однако сейчас в основе комплексных решений в области распознавания и обработки речи, выполненных разными фирмами, обычно стоит лицензионный “движок” от IBM или L&H. Кстати, предметом особой гордости L&H, владевшей почти полусотней патентов на технологии распознавания речи еще до слияния с Dragon, является изобретение, позволяющее отличить произносимую вслух команду от диктуемого текста. Благодаря этому программа-диктограф Voice Xpress Professional позволяет не только вводить текст в компьютер путем диктовки, но и немедленно форматировать его с помощью голосовых команд.
Объявленная точность распознавания диктуемого текста программами-лидерами составляет 98%. Но обязательная скромная поправка, всегда размещаемая на листовках как можно незаметнее, - “Individual results may vary” (результаты у разных пользователей могут различаться), говорит об условности этого показателя. По нашим впечатлениям от живых демонстраций программ, реальный уровень распознавания уступает объявленному. Он по-прежнему очень сильно зависит от вариабельности дикторского голоса и зашумленности помещения.
Всего в номинации “независимое от диктора распознавание слитной речи” на CeBIT выступили 20 компаний: Philips Speech Processing, Grundig, IBM Deutschland, Linguatec, RC, XCOM, AnNoText, DictaPlus Digitale, Lernout&Hauspie, Advanced Scientific ASCO, Pipebeach, Telecats, EveryWare, Weierich, Periphonics Corporation, Arcom, ASC-Kreutler, Dialogic Telecom Deutschland, Telenet, Temic Telefunken. Некоторые участники, в том числе Grundig, IBM, L&H, EveryWare, Dialogic, Telenet и Temic Telefunken, представили также системы распознавания речи для индивидуального диктора.
Обратная распознаванию задача - синтез речи, или Text-to-Speech (TTS), - столь же проста в первом приближении и по-своему не менее сложна по мере достижения вершин. Известно, что синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, т. е. как раз в тех условиях, в которых было бы наиболее заманчиво ее использовать. Тем не менее эксперты отмечают улучшение звучания синтезированной английской речи. В интеллектуальных телефонных системах, таких, как IVR (interactive voice responce) и центры телефонного обслуживания, технологии TTS начинают теснить традиционные наборы записываемых заранее слов и реплик - прежде всего благодаря своей гибкости, простоте переналадки и сокращению требований к объему памяти.
Полные комплексные решения, связанные с обработкой и передачей речи, на CeBIT’2000 демонстрировало около трех десятков компаний. Назовем лишь некоторые из них: Genesys, Prodacta, Panasonic Marketing, Grundig, Intraware, Topcall, Speech Design, Next Level Communications, ITS Telecom, CAE Elektronik, Telenet, Redwood Technologies, Pfordt Elektronik.
Группа российских компаний на объединенном стенде Миннауки России представила, в числе прочего, системы и технологии сжатия и обработки речи. Центр речевых технологий из Санкт-Петербурга, известный как разработчик средств шумоподавления и редактирования звука, показал программы Clear Voice, Sound Cleaner, Speech Interactive Software, Sound Stretcher.
Фирма “ИстраСофт” продемонстрировала экспериментальные программы сжатия речи по новому алгоритму, работа над которым велась последние два года. В основе алгоритма лежит выделение фонем из потока слитной речи в режиме реального времени, их кодирование и последующее восстановление. Хотя слова о фонемной обработке речи произносились на CeBIT’2000 достаточно часто, у разработчиков нет единого мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой “ИстраСофт”, допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество сигнала в эксперименте практически не падало. По ряду причин, в том числе организационных, новый алгоритм пока не применялся в реальных сетях передачи голоса и данных; тем не менее он вызвал значительный интерес на выставке. Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи. Теоретически машинное распознавание речи, т. е. ее автоматическое представление в виде текста, является именно крайней степенью сжатия речевого сигнала.
Еще одна тенденция последних лет - слияние речевых технологий с лингвистическими. Показателен пример L&H, ставшей действующим лицом в области машинного перевода с момента приобретения фирмы Mendez в 1996 г. После этого к L&H присоединились AILogic Corp. и NeocorTech, специализировавшиеся на машинном переводе с английского на японский и с японского на китайский и обратно, германская фирма Heitmann Group и, наконец, Globalink. Новая версия известной программы-переводчика Power Translator Pro фирмы Globalink вышла уже под маркой L&H.
Продукция L&H поддерживает в общей сложности 25 языков. Однако еще эффектнее выглядит программа Universal Translator фирмы LanguageForce (США). Серия Universal Translator включает четыре системы машинного перевода, работающие с MS Office, имеющие функции распознавания/синтеза речи и проверки орфографии; при этом Universal Translator 2000 Professional переводит с 40 языков: арабский, китайский (упрощенный и традиционный варианты), чешский, датский, нидерландский, английский британский и американский, эсперанто, фарси, финский, французский (канадский и европейский варианты), немецкий, греческий, иврит, венгерский, итальянский, индонезийский, латинский, японский, корейский, норвежский, польский, португальский (бразильский и европейский варианты), румынский, русский, словацкий, испанский (латиноамериканский и европейский варианты), суахили, шведский, тагальский, тайский, турецкий, украинский, вьетнамский, зулусский. Для Universal Translator 2000 Professional объявлена возможность перевода в любом направлении для любой языковой пары. Нетрудно подсчитать, что число таких пар составляет 1560. Кроме того, программа записывает текст под диктовку, читает вслух и проверяет грамотность написанного. Вместе с переводчиком поставляются две обучающие игры Space Attack и WortTris, которые должны, по-видимому, окончательно сразить потребителя и конкурентов.
Машинный перевод - небесспорная технология, тем более в сочетании с распознаванием речи, и остается только догадываться, каким окажется качество полученного на выходе текста. Вместе с тем совершенно очевидно, что рядовой пользователь как в США, так и в России скорее всего не станет проверять качество машинного перевода со словацкого на зулусский. Как и распознавание речи, машинный перевод относится к тем культовым технологиям, в которых, по словам классика, главное - мечта. Интерес к ним постоянно подогревается бесчисленными трудами писателей-фантастов, поэтому попытки создать продукт, точно соответствующий представлениям обывателя о технологиях завтрашнего дня, неудивительны и коммерчески вполне успешны. К тому же замечено, что душу пользователя согревает сама возможность подобных переводов независимо от того, будет ли она когда-либо применена. А лучшим электронным переводчиком для языковой пары русский - английский на данный момент все равно остается пакет фирмы “ПроМТ”.
Лингвистический анализ текста - обязательная стадия процесса автоматического ввода текста под диктовку. Без этой стадии современное качество распознавания не могло бы быть достигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые технологии делаются все более зависимыми от языка, с которым работают. В сфере распознавания слитной речи зависимость стала абсолютной, что подтверждается, в частности, отрицательным опытом локализации программного пакета фирмы Dragon Systems для русского языка (имеется в виду система “Горыныч”, не показавшая объявленного качества распознавания и к настоящему времени почти забытая). Однако и в других областях работы с речью, включая TTS и даже механизмы редактирования и сжатия, специфика языка все более дает себя знать. А значит, распознавание, синтез и обработка русской речи являются той нишей, занять которую должны именно российские разработчики.