Синтез речи для бизнеса


24.07.19. Тинькофф запустил сервисы распознавания и синтеза речи


Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.


2017. Baidu представила систему преобразования текста в речь Deep Voice


Китайская компания Baidu представила систему преобразования текста в речь, которая называется Deep Voice. Она представляет собой нейросеть, созданную с помощью технологии глубокого обучения, в ходе которого она анализировала речь и сопоставляла её с текстом, после чего начала вполне сносно произносить слова. Сначала Deep Voice раскладывает слово на отдельные звуки, затем вводит данные в систему синтеза речи и произносит нужное слово. Несмотря на значительные успехи китайского поискового гиганта, компания Google продолжает лидировать в этой области. Её система WaveNet уже успешно синтезирует речь, опираясь на «прочитанный» ранее текст. Сейчас американская разработка умеет говорить на двух языках, и специалисты продолжают над ней работать.


2016. Google DeepMind научился говорить


Большинство популярных синтезаторов речи, например, в Siri, Cortana или Google Translate - строят речь из фрагментов записей настоящего человеческого голоса. Этот метод даёт неплохие результаты, но требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса. Команда Google DeepMind представила технологию WaveNet, которая требует немного исходного материала, наговорённого человеком, и с помощью глубинного обучения нейросети позволяет генерировать любые слова для данного тембра голоса. Лингвистические правила и рекомендации позволяют WaveNet формировать осмысленную речь (т.е. ИИ понимает смысл того, что он говорит). Однако, разработчики говорят, что в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений (WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио).


2013. Видео: Как Siri получила свой голос


Как известно, изначально голосовые способности Apple Siri (распознавание и синтез речи) были реализованы компанией Nuance. В этом ролике вы можете увидеть, как создавался голос Siri (это заняло более 4 месяцев).


2013. Amazon купила лучший синтезатор речи IVONA


Amazon купила польскую компанию IVONA, которая известна своей системой воспроизведения речи. IVONA поддерживает 17 языков и 44 различных голоса. На сайте компании вы можете ввести произвольный отрывок текста и система произнесет его с отличным качеством. Amazon уже некоторое время использовала технологию IVONA в читалках Kindle Fire для воспроизведения книг, но по слухам, Amazon работает над голосовым помощником аля Siri.