У каждого журналиста есть свои любимые темы. Среди моих тем особое место занимают лингвистические технологии. В России не так много фирм работает в этой области, однако достигнутые ими результаты часто впечатляют. Предлагаю вашему вниманию запись беседы с президентом компании SPIRIT Андреем Свириденко.
Андрей Свириденко
PC Week: SPIRIT - одна из немногих российских компаний, специализирующихся на разработках передовых технологий для мирового рынка. Вы же, наверное, единственные в стране, кто занимается компьютерным зрением. Связано ли это с имеющимися прогнозами бурного развития робототехники?
Андрей Свириденко: Роботы - очень интересная тема, но эта не наша специализация, так как компьютерным зрением занимается не SPIRIT, а наша дочерняя компания SeeStorm. Мы занялись компьютерным зрением в 1997-м вместе с корпорацией Toshiba. Тогда японское правительство задумалось, в каком направлении япония сделает следующий прорыв на мировой рынок: автомобильный рынок они захватили, бытовую электронику тоже, и японцами было принято решение, что следующей областью будет робототехника. В 1999 г. мы провели роуд-шоу по японским компаниям, и оказалось, что все они: Sharp, Sanyo, Hitachi, Mitsubishi, Sony, Toshiba, NEC - короче говоря, все крупные корпорации серьезно ведут разработки домашних роботов. Все эти компании и японское правительство выделили деньги и образовали индустриальный консорциум, взявший на себя проведение исследований в области робототехники, поскольку исследования эти весьма дорогие. У японцев жесткая позиция: все исследования, оплаченные государством, должны выполняться японскими компаниями. Но еще раз подчеркну, что роботы - не наша специализация: мы занимаемся телекоммуникациями и компьютерное зрение видим как приложение к ПК или телефонии.
PC Week: Не совсем понятно, зачем это нужно в телефонии.
А. С.: В синтетической видеотелефонии, например, полезно распознавание лица говорящего, его мимики.
У компании SeeStorm сейчас есть продукт, позволяющий при проведении видеоконференций не пользоваться видеокамерой. В нем задействовано несколько технологий, и одна из них - синхронизация губ говорящего персонажа с голосом человека (lips sync). Наша технология позволяет на лету (в реальном времени) распознавать в речи фонемы и автоматически артикулировать губы 3D-персонажа синхронно с потоком речи. Получается, что когда вы говорите, то персонаж не только воспроизводит мимику, улыбку, движение бровей, морщин на лбу, повороты головы и т. д., но и произносит слова. Это можно посмотреть у нас на сайте (www.spiritDSP.COM/company). Там стоит мой аватар, который произносит приветственную речь. А на сайте www.seestorm.ru можно увидеть целую галерею виртуальных персонажей - как реальных людей, так и вымышленных героев.
PC Week: Насколько точно распознаются фонемы?
А. С.: Весьма точно. Конечно, ошибки бывают, поскольку задача распознавания фонем в слитной речи достаточно сложна. Вычислительная нагрузка получается серьезная, потому что кроме распознавания фонем речь нужно еще сжимать и передавать, делать 3D-рендеринг аватара и т. д.
Идея здесь такова: вместо того чтобы передавать реальные видеопотоки говорящих на обоих концах телекоммуникационного канала, создаются трехмерные их копии. Таким образом, достаточно один раз создать и передать такого весьма компактного 3D-двойника своему партнеру, а дальше передаются только векторы или просто какие-то шаблоны движений: например, я улыбаюсь, я удивляюсь+ Они могут кодироваться одним байтом. При этом электронный персонаж демонстрирует поведение. Эта технология фактически обеспечивает синтетическую видеоконференцсвязь без видеокамеры - мы управляем видеообъектами на обеих сторонах только на основе голосового потока. У этой технологии есть ряд замечательных преимуществ: она проста, не требует камеры и работает на любом канале. Ее можно использовать в речевой почте, на сайтах, в системах обмена речевыми сообщениями. Персонаж, скажем, директор компании, при этом хорошо выглядит, отретуширован, представлен в хорошем костюме и т. д.
PC Week: Тут ведь возможны случаи несанкционированного доступа к персонажам. Как с этим бороться?
А. С.: Так же, как и с любыми другими несанкционированными доступами. Аватаров можно, например, защищать цифровой подписью. Одна из наших бизнес-моделей для американского рынка была связана с продажей контента, в том числе с продажей персонажей. Хотя мы, конечно, предпочитаем заниматься лицензированием технологий и продуктов. Поскольку контент платный, то он защищается авторизацией на сервере, который проверяет, у кого какие права, и не позволяет использовать контент, если он не куплен.
PC Week: Для вашей технологии было бы интересно иметь возможность преобразования текста в речь, так называемый TTS (text-to-speech).
А. С.: А вот речью и цифровой телефонией занимается SPIRIT. Многие клиенты просят нас сделать TTS, в частности, для систем обмена сообщениями. Мы не стали разрабатывать свою TTS, поскольку у IBM, у AT&T есть хорошие готовые TTS-системы. Сейчас TTS не делает только ленивый.
PC Week: TTS для английского языка есть, для русского хороших систем я не видел. Из-за отсутствия российских лингвистических систем уже многие западные продукты в России продаются в довольно урезанном виде (как MS Word 2002), а то и вовсе не могут продаваться. Пример - новые планшетные ПК с рукописным вводом. Другой вопрос в том, что в TTS существует проблема интонационной разметки текста. Она, кстати, в разных странах существенно различается.
А. С.: Да, при TTS-воспроизведении получается несколько металлический роботизированный голос.
PC Week: Это проблема стыковки фонем - они должны при воспроизведении некоторым образом перекрываться, чтобы речь звучала естественно.
А. С.: Верно, но SPIRIT занимается не синтезом фонем, а цифровой телефонией, поэтому у нас такой проблемы нет. Например, у нас есть анализатор голоса. Это отдельный продукт, и с его помощью мы выделяем интонационную окраску: когда человек радуется, огорчается, засыпает и т. д. Такие исследования мы ведем, и клиентам это интересно. Другой продукт позволяет в реальном времени изменять голос, если персонажу нужно говорить разными голосами: там уже довольно много параметров: персонаж говорит мужским или женским, детским или старческим голосом, ускоренно или замедленно.
PC Week: Это одна из проблем, потому что так называемый голосовой морфинг делает идентификацию по голосу абсолютно ненадежной. Если снять реальные параметры речи конкретного человека, то скоро можно будет сделать компьютерную речь совершенно идентичной его. Больше всего, я думаю, пострадает Максим Галкин, ведь тогда любой ребенок сможет с помощью компьютера подражать чьей угодно речи.
А. С.: Нужно сказать, что вся простая биометрия ненадежна. Идентификация речи обходится на бытовом уровне - с помощью диктофонной записи. Тем не менее у SPIRIT есть продукт для идентификации говорящего по голосу. Это нужно для речевой навигации. Например, чтобы получить по сотовому телефону какие-либо платные сервисы, его применение позволяет звонящему произнести пароль голосом, чтобы не отрывать трубку от уха для ввода пароля с клавиатуры. У нас очень сильная речевая лаборатория, речью мы занимаемся давно и наработали массу технологий и продуктов мирового класса. В частности, это вокодеры для сжатия речи и передачи ее по IP. Ведутся исследования и в области более сложного и ресурсоемкого анализа речи.
PC Week: Кроме анализа речи, чем еще занимается SPIRIT?
А. С.: Мы занимаемся цифровой телефонией, а это прежде всего голос. Современная телефония предполагает также интеграцию голоса, данных и передачу факсов. Следующий шаг - добавление к ним еще и видео.
PC Week: Когда, по вашему мнению, это произойдет?
А. С.: Когда появится 3G-телефония. Но мы видео не занимаемся. Компьютерное зрение - это надстройка над базовыми голосовыми технологиями. Замена реального потока видео на синтетические объекты позволяет создавать видео более высокого качества, сделать объекты такими, как хочется, а не такими, какие они есть на самом деле, и передавать синтетическое видео на любом канале. Низкоскоростные линии связи будут всегда - иногда они даже более эффективны. По существу, нами решена задача организации синтетического видеообщения на любых каналах связи, достаточно даже 8 кбит/с. У SPIRIT около 40 продуктов, связанных с телефонией. Например, есть задача генерации комфортного шума в паузах. Дело в том, что человек привык при разговоре к некоторому уровню шума, и если подавлять весь шум в паузах, то слушать это будет некомфортно - гробовая тишина в трубке воспринимается как обрыв линии.
PC Week: Как идет в мире процесс перехода на 3G?
А. С.: В технологических сегментах сейчас ситуация в мире очень тяжелая из-за кризиса, соответственно нет инвестиций в бизнес, в котором еще непонятно, что получится. Поэтому внедрение 3G сильно задерживается. Спрос в основном на платформу 2.5G. Когда рынок богатый, тогда растет спрос на функциональность, а когда он такой, как сейчас, - важно, чтобы была разумная цена, а всякие примочки потом. Все снижают издержки, реструктурируются, оптимизируются и откладывают внедрение новых технологий. Новые технологии стали заложником экономической ситуации. Поэтому мы сейчас делаем бизнес на базовых технологиях цифровой телефонии.
PC Week: Спасибо за интересную беседу.