Евгений Альтовский

Tехнологии обработки речи (ТОР), знакомые нам еще недавно лишь по научно-фантастическим фильмам, сегодня уже не кажутся такими недосягаемыми. Быстрое развитие технологий в области вычислительной техники вкупе со снижающимися ценами на нее приближают то время, когда мы действительно сможем “общаться” со своим пылесосом.

Уже сейчас ТОР успешно используются в ряде областей, в основном связанных с телекоммуникациями, и масштабы их применения вполне позволяют судить о прибыльности этих технологий. Во многом именно прибыльностью, как существующей, так и ожидаемой, объясняется высокий интерес компаний, занятых в сфере телекоммуникаций, к ТОР.

Коротко технологии обработки речи можно определить как мостик между человеческим голосом и машинно-читаемым кодом. Первые ТОР были дорогостоящими и малоэффективными. Но с увеличением мощности вычислительной техники и падением цен на нее, а также благодаря развитию самих технологий ТОР шагнули из стен НИИ на рынок. Не менее важную роль в этом сыграло и постепенное размывание границ между домом и офисом. То среднее, что получило название SoHo, как раз и является идеальным местом применения ТОР.

В настоящее время ТОР в основном используются в таких дорогих “игрушках”, как сотовые телефоны, портативные компьютеры и мини-АТС, но производители убеждены, что со временем они найдут применение в других областях, в том числе в бытовой технике.

Существующие технологии обработки речи делятся на четыре основные группы: сжатие речи, распознавание речи, преобразование текста в речь и машинный перевод человеческой речи с одного языка на другой.

Сжатие записанного человеческого голоса используется для того, чтобы запись занимала меньше места при хранении или чтобы повысить скорость передачи по линиям связи. В настоящее время технологии сжатия речи позволяют добиться коэффициента сжатия вплоть до 1:20. Это немаловажно для таких сфер, как Интернет-телефония, голосовая почта (voice-mail), цифровые диктофоны или автоответчики.

Под распознаванием речи (voice recognition) подразумевается способность компьютера “понимать” человеческую речь. Подобные технологии уже достаточно широко применяются для подачи голосовых команд или диктовки текстов, например, в операционной системе IBM OS/2 Merlin, персональных цифровых секретарях (PDA) и сотовых телефонах.

Преобразование текста в речь (text to speech)  -  это обратный процесс. В данном случае компьютер “читает” человеческим голосом обычный текстовый документ. Подобные технологии находят широкое применение в таких сферах, как игры, обучающие программы или компьютеризованные системы поддержки пользователей.

В будущем функцией преобразования текста в речь с предшествующим переводом могут быть снабжены браузеры. Тогда ресурсы Интернет, сейчас по большей части англоязычные, смогут “на лету” переозвучиваться на родном для пользователя языке почти так же, как сейчас производится перекодировка символов.

Машинный перевод пока не получил широкого распространения, так как соответствующие технологии находятся еще в стадии разработки. Под машинным переводом подразумевается процесс распознавания слов, произнесенных на одном языке, их перевода и “озвучивания” на другом языке  -  и все это в режиме реального времени.

Наилучшее применение этому методу может быть найдено в области международной телефонной и видеотелефонной связи, международных конференций и т. п. Представить только: можно будет позвонить, скажем, в Китай и удивить своего китайского собеседника “знанием” классического “мандаринского” диалекта... и подивиться его “знанию” нашего великого и могучего.

Технологии распознавания речи делятся на распознавание слитного текста и распознавание отдельных слов. Различаются они как стадией развития и аппаратными требованиями, так и производительностью. При этом обе находят себе применение.

Распознавание отдельных слов требует небольших пауз после каждого произнесенного слова. Такие технологии лучше всего подходят для систем, поддерживающих голосовые команды. Они нетребовательны к аппаратным ресурсам и несложны, а потому относительно дешевы.

Методы распознавания слитной речи, напротив, очень сложны и предъявляют большие требования к аппаратной части ПК. Но и сфера их применения намного шире: например, они позволяют не набирать текст на клавиатуре, а диктовать его.

Однако и эта технология не так умна, как может показаться на первый взгляд. В настоящее время компьютер может воспринимать человеческую речь, но не анализировать ее. Можно отдать стандартную команду “Открыть файл”, но нельзя сказать: “Открыть статью, которую я готовил сегодня утром”.

Технологии распознавания речи делятся на универсальные и обучаемые. Обучаемые требуют от пользователя, чтобы он сначала “приучил” программу к своему голосу. Этот процесс занимает некоторое время, но зато потом возникает меньше ошибок. Помимо этого обученная система может автоматически производить верификацию обращений и игнорировать команды неавторизованного пользователя, что позволяет таким приложениям выйти на рынок средств безопасности. Человеческий голос уникален так же, как отпечаток пальца;  располагая программами, построенными на анализе особенностей человеческого голоса, можно забыть про ключи, пароли, шифры и магнитные карты: ваш пропуск всегда при вас и никто не сможет его подсмотреть или украсть.

Универсальные технологии обладают большей адаптивностью и позволяют “командовать собой” любому человеку. Однако у таких систем есть обратная сторона  -  их сложность, высокая стоимость, а также повышенные аппаратные требования. Программы, построенные на универсальных технологиях, более подвержены ошибкам  -  неправильной интерпретации команд пользователя.

Тем не менее они активно используются, например, в такой сфере, как автоматический набор номера абонента в мини-АТС или на сотовом телефоне. Пользователю достаточно назвать имя абонента, и устройство само наберет необходимый номер. В недалеком будущем возможно появление некого симбиоза мобильного телефона, электронных ежедневника и записной книжки с портативным терминалом голосовой электронной почты. Устройство сможет понимать голосовые команды и голосом же рапортовать об их исполнении. Такая конструкция поможет снизить массу и стоимость устройства и в то же время повысить удобство работы.

Следующая область, где универсальные программы распознавания речи нашли широкое применение, это “электронные телефонистки” и электронные службы поддержки пользователей. Правда, на этом поприще успехи не столь велики по сравнению с работой живого оператора, о чем можно было прочитать, скажем, у Спенсера.

В будущем ТОР будут активно применяться и уже применяются в PDA и прочих электронных устройствах, где ввод с клавиатуры не очень удобен, а чтение больших фрагментов текста с маленького дисплея утомительно.

Падение стоимости технологии и оборудования, а также рост качества ТОР расширяют сферу их применения, открывая границы новых рынков. Пользователи в большинстве случаев предпочитают говорить и слушать, а не читать и писать, поэтому в будущем все больше и больше различных электронных продуктов будет оснащаться функцией распознавания и генерации человеческого голоса.

Ведь в конечном счете неважно, какими полезными функциями обладает продукт, но важно, сколько народу сможет воспользоваться ими. Технологии обработки речи расширяют круг потенциальных пользователей, поэтому у них весьма перспективное будущее.

***

Благодаря увеличению мощности вычислительной техники и падению цен на нее технологии распознавания речи смогут выйти из лабораторий научно-исследовательских институтов на потребительский рынок

Версия для печати