О речевых технологиях на CeBIT’e, и не только

ИНТЕРВЬЮ

В этом году у меня не получилось съездить на CeBIT самому, да и в такой тонкой области, как речевые технологии, лучше спрашивать мнение эксперта. Поэтому когда в редакцию по моей просьбе приехал директор компании "ИстраCофт" Эммануил Григорьевич Кнеллер, нашу беседу мы начали с того, как системы распознавания и синтеза речи были представлены на этой крупнейшей в мире компьютерной выставке.

Эммануил Кнеллер: Сам CeBIT заметно изменился. Резко уменьшилось количество "простых" посетителей - среди них стало больше директоров, менеджеров, специалистов. На автомобильной стоянке вполне можно найти место, что раньше было просто немыслимо. Изменилась выставка и по структуре. Стало много новых специализированных павильонов по различным тематикам, выделился большой павильон по безопасности, и в каждом появилось много китайских и корейских компаний, однако продуктов по речевым технологиям они практически не показывают. Из крупных фирм систему распознавания речи демонстрировала только Philips.

Эммануил Кнеллер

Надо сказать, что интерес к речевым технологиям на CeBIT’e из года в год меняется. Вообще с этими технологиями постоянно происходит следующее: то к ним на рынке проявляется интерес и туда начинают вкладывать деньги, но через два-три года, не получив быстрого ожидаемого результата, уменьшают вложения. Прошлый и нынешний CeBIT свидетельствуют о том, что сейчас вложений в речевые технологии мало - по-видимому, снижен интерес к ним перед очередным подъемом.

Эдуард Пройдаков: А как же пентагоновская программа с миллиардным ежегодным бюджетом?

  Э. К.: Эта программа идет всего третий год, она находится еще на стадии исследований и не вышла на уровень законченных продуктов. Вообще на рынке речевых технологий, исключая средства сжатия речи и звука, до настоящего времени нет настоящих коммерческих продуктов, т. е. продуктов типа ABBYY FineReader, таких, какие не вызывают у пользователя отрицательных эмоций. Нужно сказать, что из-за спада инвестиций все европейские компании, которые специализируются на распознавании и синтезе речи, в прошлом году объединились в одну, которая теперь именуется Akapella Group. Таким образом, на выставке было всего не более десятка компаний, в том числе - Центр речевых технологий (Санкт-Петербург), лидер по шумоочистке и шумоподавлению, и компания "Сакрамент" (Минск), занимающаяся синтезом русской и английской речи для смартфонов.

Э. П.: Мы, наверное, год не встречались. Что сейчас происходит в области распознавания речи?

 Э. К.: Из технологий сжатия речи сейчас очень широко применяется MPEG-3. Исследования по распознаванию и синтезу речи активно продолжаются. Синтез из отдельных фраз сейчас активно применяется в call-центрах. Развиваются системы экспертизы речи. Что касается нашей компании, "ИстраСофт", то мы, например, вышли на хороший уровень в области распознавания, классификации и визуализации фонем. Что такое фонема? Речевики этот термин определяют по-разному. Мы под фонемой понимаем ту часть речевого сигнала, которая создает у нас звукоощущение. В каждом языке свои звукоощущения. Например, корейцы не различают звуки "с" и "з", но различают три типа звука "с", которые мы с вами не слышим. Одни и те же характеристики звука в разных языках передают разное. Скажем, в китайском языке изменение тона влечет изменение смысла, а в европейских языках оно придает речи иную эмоциональную окраску.

Э. П.: Казалось бы, если фонемы выделены, то какие проблемы дальше?

Э. К.: Мы хорошо выделяем гласные, согласные и взрывные звуки. Сейчас будем встраивать нашу систему фонемного распознавания в программный пакет "Профессор Хиггинс". Там пока выдается график, который позволяет обучающемуся видеть эталонные фонемы и собственные и ритмику речи. Сложность в том, что английские фонемы совершенно не совпадают с русскими, потому что из-за различной артикуляции они дают другие звукоощущения. Распознавание речи - это многоуровневый процесс: первый уровень - выделение из речевого сигнала признаков (характеристик, параметров), создающих звукоощущение, затем семантический и лингвистический уровни. Необходима большая работа в области лингвистики. Без контекстного понимания нельзя распознать близкие по звучанию слова, например, "зАмок" и "замОк", можно сделать возможным только распознавание отдельных слов.

Сейчас отдельные группы активно занимаются лингвистикой, она, кстати, будет представлена на конференции "Диалог", которую проводит ABBYY Software. Пока для русского языка нет хорошей системы синтеза речи, а вот для английского были сделаны вполне приличные системы той же Akapella Group.

Э. П.: Вы являетесь вице-президентом м консорциума "Российские речевые технологии". Происходят ли там какие-то события?

Э. К.: Создание консорциума позволило нам в первую очередь выявить, кто и что может делать и кто и что реально делает, а также наладить контакты между собой. Когда он создавался, были надежды, что будет разработана государственная программа в этой области и можно будет, объединив усилия, добиться результатов именно для русской речи, тем более что за нас этого никто не сделает; но пока, к сожалению, движения в данном направлении нет, хотя г-н Рейман и подписал соответствующие письма. Ведь сохранение русской речи в информационном пространстве наступившего века должно стать одной из государственных задач. В той же пентагоновской программе упор сделан на английский, арабский и китайский языки.

Э. П.: Нуждаются ли российские речевые компании в инвестициях?

Э. К.: На мой взгляд, нуждаются. Дело в том, что на основании исследований российские компании накопили достаточно много знаний в этой области, чтобы получить прорывные результаты, но для их реализации необходимо финансирование.

Э. П.: Каковы должны быть объемы финансирования, чтобы получить систему распознавания русской речи?

Э. К.: Американцы тратят на это громадные деньги, но в условиях России, мне кажется, чтобы выпустить достойный продукт хватит 20-30 млн. долл. на три года, что на два порядка меньше, чем тратят на это в США. Объем рынка речевых технологий оценивается в биллион долларов, но он ждет прорывных продуктов, которые без серьезных инвестиций невозможно создать.

Э. П.: Спасибо за беседу.

Версия для печати