Синтез речи для бизнеса

Технологии машинного обучения позволяют синтезировать человеческую речь, не прибегая к услугам студий озвучки. Синтез речи применяется для бизнеса в следующих приложениях:
- персональные голосовые ассистенты
- голосовое меню IVR
- создание видеороликов
- системы автообзвона
- call-центры

Примеры использования синтеза речи для бизнеса приведены ниже.

См. также: Топ 10: ИИ платформы

25.09.20. Сервис Synthesia создает видеообращения из произвольного текста


Онлайн платформа Synthesia позволяет преобразовать любой текст в видео, где его начитывает виртуальный персонаж. Чтобы воспользоваться новой функцией, введите свой текстовый сценарий и нажмите на кнопку «Генерировать». Видео будет готово через несколько минут, при стандартном объеме это займет 15 минут. Новая платформа доступна на 34 языках, в частности на русском. При стандартной генерации ваш текст читает актриса Анна, помимо нее можно выбрать из еще десяти персонажей. Создатели предлагают использовать новый сервис для организации рабочих презентаций, отправки видео-сообщений и других целей.


2020. Google добавила в мессенджер Google Duo функцию восполнения обрывков слов во время разговоров


Google улучшила качество аудиозвонков в Google Duo, используя систему WaveNetEQ с поддержкой технологий искусственного интеллекта. Обычно, из-за нестабильности интернет-соединения, во время беседы звук может искажаться и прерываться. WaveNetEQ — система PLC, которая реалистично синтезирует недостающие фрагменты живой речи. Работа WaveNetEQ основана на большом массиве речевых данных — записанных голосах 100 людей, говорящих на 48 языках. Технология анализирует речь, чтобы синтезировать продолжение звучания, если голос говорящего временно пропадёт. Когда передача речи восстанавливается, технология «соединяет» искусственный звук с настоящим. Система «обучена» распознавать речь в разной обстановке, с разным уровнем фонового шума.


2020. Speech Robot - робот для телефонных звонков вместо call-центра


Speech Robot - новый сервис для автоматизации кол-центра. Его можно использовать для приема и подтверждения заказов, холодных звонков, информирования о доставке, маркетинговых опросов, проведения первичных собеседований. Робот делает звонки быстрее человека и стоит дешевле, это позволяет сокращать количество людей в кол-центре благодаря автоматизации рутинных задач. Есть готовые сценарии для информирования, оценки качества обслуживания, подтверждения заказа в интернет магазине, согласования даты и времени доставки. Можно связать с CRM системой. Тарификация - поминутная: минута исходящего разговора - 3,5 рубля, входящего - 70 копеек, распознавание речи - 75 копеек.


2020. Google Assistant научился читать тексты вслух


На выставке CES Google продемонстрировал новую способность своего виртуального помощника Google Assistant - читать тексты вслух. Уже скоро (через пару месяцев) вы сможете открыть статью, новость или просто веб-страничку с контентом сказать "ок, гугл, прочитай это", и ассистент сам обнаружит текстовую часть и прочитает вслух (на любом из 42 языков, включая русский). Конечно, сервисы чтения текстов уже дано существуют, но в Google говорят, что у них получилось создать хорошую нейросеть для расстановки ударений и интонаций, так что качество будет выше. По крайней мере, судя по промо-ролику, английский текст звучит действительно качественно.


2019. Сбербанк купил знаменитого разработчика систем распознавания голоса


Сбербанк купил 51% акций компании Центр Речевых Технологий, разрабатывающей технологии анализа и синтеза речи, а также распознавания лиц. До этого разработчик полностью принадлежал Газпромбанку. У Сбербанка уже есть опыт использования разработок ЦРТ в своих продуктах. В частности, на их основе была создана цифровая телеведущая Елена, которую банк представил в апреле 2019 г. До этого в июне 2017 г. Сбербанк начал внедрение разработок компании в собственной биометрической системе защиты информации. Технологии ЦРТ позволяют идентифицировать клиентов банка по голосу, сравнивая его с заранее записанным образцом.


2019. Тинькофф запустил сервисы распознавания и синтеза речи


Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.


2017. Baidu представила систему преобразования текста в речь Deep Voice


Китайская компания Baidu представила систему преобразования текста в речь, которая называется Deep Voice. Она представляет собой нейросеть, созданную с помощью технологии глубокого обучения, в ходе которого она анализировала речь и сопоставляла её с текстом, после чего начала вполне сносно произносить слова. Сначала Deep Voice раскладывает слово на отдельные звуки, затем вводит данные в систему синтеза речи и произносит нужное слово. Несмотря на значительные успехи китайского поискового гиганта, компания Google продолжает лидировать в этой области. Её система WaveNet уже успешно синтезирует речь, опираясь на «прочитанный» ранее текст. Сейчас американская разработка умеет говорить на двух языках, и специалисты продолжают над ней работать.


2016. Google DeepMind научился говорить


Большинство популярных синтезаторов речи, например, в Siri, Cortana или Google Translate - строят речь из фрагментов записей настоящего человеческого голоса. Этот метод даёт неплохие результаты, но требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса. Команда Google DeepMind представила технологию WaveNet, которая требует немного исходного материала, наговорённого человеком, и с помощью глубинного обучения нейросети позволяет генерировать любые слова для данного тембра голоса. Лингвистические правила и рекомендации позволяют WaveNet формировать осмысленную речь (т.е. ИИ понимает смысл того, что он говорит). Однако, разработчики говорят, что в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений (WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио).


2013. Видео: Как Siri получила свой голос


Как известно, изначально голосовые способности Apple Siri (распознавание и синтез речи) были реализованы компанией Nuance. В этом ролике вы можете увидеть, как создавался голос Siri (это заняло более 4 месяцев).


2013. Amazon купила лучший синтезатор речи IVONA


Amazon купила польскую компанию IVONA, которая известна своей системой воспроизведения речи. IVONA поддерживает 17 языков и 44 различных голоса. На сайте компании вы можете ввести произвольный отрывок текста и система произнесет его с отличным качеством. Amazon уже некоторое время использовала технологию IVONA в читалках Kindle Fire для воспроизведения книг, но по слухам, Amazon работает над голосовым помощником аля Siri.