Компания “Центр речевых технологий” (ЦРТ) завершила работу над технологией “Руссограф”, предназначенной для распознавания слитной русской речи. Работы над проектом продолжались более трех лет, а инвестиции в разработку составили порядка 5 млн. долл. Новинка позволит компании выйти на рынок с целым рядом принципиально новых продуктов.
Как сообщает ЦРТ, “Руссограф” охватывает 30 тыс. словоформ и учитывает фонетические и грамматические особенности русского языка. В компании уверены, что западные системы распознавания не пригодны для качественного распознавания русской речи, так как созданы для работы с английским, испанским и другими языками. А русский принципиально отличается от остальных языков не только фонетически (например, звуком “ы”), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи.
Разработкой “Руссографа” занималась научно-исследовательская группа, состоящая из специалистов по лингвистике, фонетике, математике, обработке сигналов и программированию. Для работы над проектом использовался набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом пяти диалектных групп русского языка. Эти базы послужили для создания акустических моделей звуков русской речи.
Что касается языковых моделей, то в ЦРТ была собрана текстовая база русского языка объемом 35 млн. слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который преобразовывает речевой сигнал в текст c помощью акустических и языковых моделей русского языка.
Сейчас ЦРТ работает над аппаратной реализацией технологии и собирается уже в нынешнем году предложить несколько продуктов на основе распознавания речи, в частности, системы интерактивного голосового управления для контакт-центров и промышленных предприятий. В перспективе планируется создание карманного переводчика устной русской речи. В компании надеются разработать его к Олимпиаде в Сочи.
Что касается системы распознавания речи для настольных компьютеров, то ЦРТ движется в сторону ее реализации, но постепенно. Первым шагом стал выпуск ПО для управления доступом к компьютеру с помощью голоса (голосовой замок). По словам Владислава Филиппова, руководителя группы управления проектами, разработка уже завершена и сейчас продукт Voice Key выводится на рынок.
Следующим шагом станет создание системы, позволяющей наговаривать текст в компьютер и его распознавать (диктовочный блокнот). Как считают в ЦРТ, в этой области наибольшее распространение получили отраслевые продукты, предназначенные для отдельных профессиональных областей, например, медицины. Данный подход упрощает процесс распознавания за счет сокращения числа слов. «В США целая индустрия занимается разработкой такого ПО для больниц, а у нас эта область еще не освоена», - сказал Владислав Филиппов. ЦРТ планирует закончить разработку первого подобного продукта до конца текущего года.
Еще одно направление ЦРТ - системы audio data mining, позволяющие выполнять поиск по ключевым словам и фразам в звуковых файлах.
Важной характеристикой систем такого рода является точность распознавания. По словам Владислава Филиппова, на этот вопрос трудно ответить однозначно, поскольку большое значение имеют разные факторы, прежде всего качество сигнала и способ ввода. Например точность распознавания многосложных слов в телефонном канале составляет порядка 90%, а цифр – 99,9%.