Некоторые приложения речевых технологий вам уже знакомы, но на подходе новые, более преобразующие приложения, и ИТ-лидерам необходимо учитывать общую картину, пишет на портале No Jitter Джон Арнольд, директор аналитической компании J Arnold & Associates.

Речевые технологии — это обширная тема, и, как и многое другое, сейчас она определяется искусственным интеллектом. Сегодня именно ИИ выводит, причем очень быстро, речевые технологии на новые уровни, которые выходят далеко за рамки унаследованных технологий. Я уже шестой год готовлю ежегодный обзор речевых технологий, и изменения, произошедшие с 2023 г., являются самыми значительными с тех пор, как я начал отслеживать эту сферу.

Мои обзоры традиционно посвящены корпоративным сценариям использования речевых технологий, поскольку они менее известны, чем сценарии использования в контакт-центрах, на которых сосредоточено внимание большинства вендоров. Такое внимание определенно оправдано: корпоративные сценарии распространяются на всю организацию, а при использовании ИИ они играют более значительную роль, чем просто транскрипция речи или виртуальные помощники.

Приложения речевых технологий, которые сегодня являются частью UCaaS (унифицированные коммуникации как сервис) и других инструментов обеспечения продуктивности, по-прежнему будут широко использоваться, но ИИ позволил продвинуться вперед в использовании речи на предприятии, которое выходит за рамки того, о чем ИТ-отделы, возможно, думают в настоящее время.

Два больших изменения с 2023 года

Изменения, связанные с ИИ, происходят — для покупателей, продавцов и особенно конечных пользователей — быстрее, чем кто-либо успевает их воспринять. Если говорить о технологиях, то первое изменение по сравнению с прошлым годом заключается в том, что большие языковые модели (LLM) — это нынешняя движущая сила инноваций в области речевых технологий, и аббревиатура LLM должна быть в лексиконе ИТ-лидеров.

Второе важное изменение в 2024 г. — это то, насколько продвинутыми становятся технологии ИИ на основе языка. До недавнего времени основу наиболее распространенных речевых технологий составляли разговорный ИИ (conversational AI, CAI) и генеративный ИИ (generative AI, GAI). Это инструменты, которые позволяют людям и машинам общаться друг с другом, обеспечивая мост для ИИ, чтобы привнести новые формы автоматизации и эффективности на рабочее место. Третья форма — генерация естественного языка (Natural Language Generation, NLG), — однако, вполне может стать самой глубокой. Вместо того чтобы просто транскрибировать или переводить речь, NLG использует возможности машинного обучения для создания контента, который еще несколько лет назад был совершенно немыслим. Именно это привело к появлению ChatGPT и других GAI-инноваций, которые стали доминирующими инновациями 2023 г., но нынешняя технология — это лишь преддверие грядущих событий.

Состояние текущих приложений

Основные сценарии использования корпоративных речевых технологий уже хорошо известны и встроены во все основные платформы UCaaS — перевод и транскрипция в реальном времени, автоматическое резюмирование совещаний и различные виды виртуальных помощников, помогающих управлять расписанием и рабочими процессами.

Более современные сценарии использования основаны на GAI (в основе которого лежит технология обработки естественного языка NLP), который работники теперь используют для автоматизации коротких письменных сообщений, таких как электронные письма, а также для создания более объемного контента, например постов в блогах или отчетов.

Речь во всем этом играет две роли. Во-первых — это способ взаимодействия людей с машинами, которые выполняют их поручения. Без этого речь оставалась бы полностью человеческой сферой, а ИИ перешел бы к другим областям применения, которые в меньшей степени зависят от человеческого участия. Во-вторых, поскольку большинство рабочих коммуникаций основано на речи, предприятия спешат зафиксировать как можно больше таких данных в цифровой форме, чтобы использовать их для работы своих ИИ-движков, точнее, LLM. Чем дальше они продвинутся в этом направлении, тем более человекоподобными будут результаты работы GAI, что сделает эти технологии незаменимыми для повышения производительности труда.

Несмотря на большой скачок в развитии ИИ, с точки зрения современного состояния корпоративных речевых технологий за последние несколько лет ситуация мало изменилась. Работники все еще учатся использовать перевод и транскрипцию в режиме реального времени, автоматизированные резюме совещаний и различные варианты виртуальных помощников. Во всех приведенных выше примерах речь идет о постоянном совершенствовании, а не о совершенно новых приложениях, поэтому ИТ-отдел должен поддерживать их, чтобы работникам было удобнее работать с ИИ. Это означает поддержку более широкого спектра языков и диалектов. Для GAI это будет означать более точное понимание языка, контекста, намерений и т. д. — и в этом заключается сила MО, позволяющая совершенствовать его по мере увеличения массивов данных. Подобные усовершенствования крайне важны для установления доверия и принятия ИИ, поскольку остается много проблем и «слепых пятен», которые могут подорвать любую степень ценности для бизнеса, которую могут принести речевые технологии предприятию.

Последствия для ИТ-руководителей

Помимо этих сценариев использования, существуют и более серьезные факторы, влияющие на то, как ИИ формирует корпоративные речевые технологии.

ИТ-специалистам необходимо разработать ИИ-стратегию для организации — это важнее всего остального. Технологии развиваются слишком быстро и оказывают слишком большое потенциальное влияние, чтобы управлять ими с помощью лоскутного, реактивного подхода. Корпоративные речевые технологии необходимо рассматривать в более целостном контексте, как один из нескольких сценариев использования, где ИИ может обеспечить новую ценность для бизнеса

Например, речевые технологии на базе UCaaS имеют неоспоримую ценность для повышения производительности труда, но есть и перспективные сценарии использования в бизнес-подразделениях, таких как HR — для повышения эффективности найма, маркетинг — для создания контента или юридическая служба — для контроля соблюдения требований. В более горизонтальном измерении управление знаниями вполне может стать наиболее ценным сценарием использования речевых технологий, поскольку это приносит пользу всей организации.

Переходя от стратегических аспектов к тактическим соображениям, ИТ-отдел должен учитывать многочисленные проблемы, связанные с ИИ, когда речь идет о речевых технологиях, — не только для рабочего места или контакт-центра, но и для бизнеса в целом. Существуют потребности, которые ИТ-специалистам раньше не приходилось учитывать, но которые необходимы для достижения устойчивой рентабельности инвестиций. Главными примерами являются прозрачность речевых данных, используемых для создания базы знаний, снижение предвзятости, защита личной информации, защита от подделок, борьба с плагиатом, нарушением авторских прав, дезинформацией и т. д.

Ни одна технология не совершенна и не защищена от рисков, но, возможно, ни одна из них не демонстрировала такой большой потенциал, как ИИ. Речевые технологии, в частности, являются ключевым элементом, поскольку они преодолевают разрыв между людьми и машинами, и не стоит сомневаться в том, что их будущее еще больше переплетется с ИИ.