Распознавание речи для бизнеса

Распознавание речи применяется в бизнесе для:
- обработки обращений клиентов (в IVR)
- автоматизации исходящих маркетинговых кампаний (в Call-центрах)
- создания документов/сообщений при помощи диктовки
- ввода данных в корпоративные приложения
- преобразования голосовых сообщений в текст
- протоколирования встреч, совещаний
- в голосовых ассистентах

Ниже даны примеры использования распознавания речи для бизнеса.

03.04.21. «Тинькофф» запустил речевую аналитику для бизнеса



Сервис речевой аналитики Тинькофф поможет бизнесу автоматически расшифровывать большие объемы телефонных звонков и анализировать их. Этот инструмент поможет колл-центрам, маркетинговым службам, отделам продаж, телекоммуникационным компаниям и другим, говорят в банке. ИИ может анализировать все разговоры операторов с клиентами в онлайн-режиме, отправлять уведомления в отдел контроля качества и формировать отчёты. Сервис позволяет сортировать звонки: например, по дате, фамилии оператора, успешности разговора и так далее. Банк предлагает два варианта подписки: облачная версия, которая анализирует звонки на серверах «Тинькофф», стоит от 0,8 рублей за минуту разговора, а цена коробочной версии, работающей на внутренних серверах компании, обсуждается индивидуально.


2021. Microsoft выпустила приложение для текстовой записи онлайн-встреч



Microsoft выпустила приложение Group Transcribe, которое позволяет прямо во время разговора нескольких человек в онлайне получить расшифровку их речи в текст, а при необходимости — и перевод расшифровки. Т.е. в реальном времени вы можете читать кто что говорит, или сохранить эту расшифровку чтобы почитать потом. Group Transcribe можно использовать как дополнение к видеовстречам через Zoom, Teams или другой сервис. Организатор должен создать в приложении комнату и пригласить туда всех участников. Т.е. звук будет идти через приложение, а видео - через ваш сервис видеосвязи. Приложение поддерживает 37 языков, среди них есть и русский. Пока оно работает только на iOS, но скоро появится и для Android. Также, Microsoft скоро выпустит специальные колонки для оффлайн встреч, которые также будут записывать текст встречи.


2021. Искусственный интеллект Microsoft превзошел людей в понимании человеческой речи



Искусственный интеллект (ИИ) DeBERTa корпорации Microsoft превзошел возможности человека бенчмарке SuperGLUE – тесте на понимание естественного языка. Он набрал 90,3 балла, тогда как показатели человека находятся на уровне 89,8 балла. Помимо полутора миллиардов параметров, у DeBERTa есть важное отличие от других ИИ-моделей, тоже сыгравшее свою роль в получении 90,3 балла в SuperGLUE. Этот ИИ по умолчанию учитывает не только значения слов, но и их позиции и роли в предложении. Для примера, в предложении «новый магазин открылся рядом с торговым центром» (a new store opened beside the new mall» он вполне в состоянии понять, что близкие по контекстному значению слово «магазин» (store) и словосочетание «торговый центр» (mall) играют разные синтаксические роли (подлежащим здесь является именно «магазин»).


2021. В Zadarma появилось распознавание речи с бесплатной речевой аналитикой



Сервис облачной телефонии Zadarma представил инструмент речевой аналитики, который поможет контролировать сотрудников отделов продаж и поддержки. Все разговоры переводятся в текст, и текст автоматически анализируется по нескольким параметрами, таким как, молчание и перебивание оператора, скорость речи, использование слов из словаря или нецензурной лексики. Можно производить поиск в разговорах, например, по названию товара. Платить нужно только за распознавание разговоров. Стоимость - $0.015/мин. В пакетные тарифы АТС включены бесплатные минуты для распознавания. Инструмент речевой аналитики - абсолютно бесплатный.


2020. Тинькофф Мобайл запустил сервис автоматической записи и расшифровки звонков



Тинькофф Мобайл запустил услугу автоматической записи и расшифровки телефонных звонков. Она позволяет автоматически сохранять все входящие и исходящие звонки. Для расшифровки аудио используется собственная технология распознавания речи Tinkoff VoiceKit. Запись звонка хранится в приложении. Абоненты могут прослушать его и прочитать расшифровку в формате диалога в мессенджере, объяснил оператор. Все записи будут доступны только самому абоненту в течение шести месяцев. После этого данные удаляются без возможности восстановления, добавили в компании. Подключить его можно в разделе «Услуги» в мобильном приложении оператора. Услуга будет бесплатной в течение двух пробных дней, далее стоимость составит от 59 рублей в день или от 399 рублей в месяц в зависимости от региона.


2020. В виртуальной АТС Mango Office появились голосовые боты



В виртуальной АТС Mango Office и одноименном облачном колл-центре появилась возможность создавать голосовых ботов, с помощью которых можно реализуются сценарии массового информирования и уведомления клиентов, проведения телефонных опросов, базового консультирования по продуктам или услугам, первичный прием и последующая маршрутизация обращений. Действия ботов как реакция на слова собеседников определяются по заданному скрипту. Разработчики говорят, обучить бота - не сложно. Можно воспользоваться преднастроенным скриптом (на старте их доступно шесть) или создать оригинальный — при помощи конструктора с текстовым редактором. Редактор позволяет использовать не только фразы, но и фразовые шаблоны с загрузкой данных из интегрированной CRM-системы. Таким образом, бот сможет обратиться к клиенту по имени, перечислить товары в заказе, назвать сумму задолженности.


2020. Распознавание речи - новая функция Zadarma



Сервис облачной телефонии Zadarma представил новую функцию распознавания речи. Теперь все клиенты, использующие бесплатную АТС Zadarma, смогут не только прослушать записи разговоров, но и увидеть их текстовую расшифровку. Сервис умеет работать с 20+ языками. Услуга распознавания платная и зависит от языка. Также в API Zadarma доступны методы по работе с распознаванием речи, можно подключить функцию к своей системе, а также не просто распознавать, но и анализировать разговоры. В ближайшее время телефония представит инструмент аналитики речи.


2020. Яндекс представил Яндекс.Мессенджер с автоматической расшифровкой голосовых сообщений



Вслед за Mail.ru, которая перезагрузила ICQ, Яндекс тоже снова делает попытку создать популярный отечественный мессенджер. Назвали его очень просто - Яндекс.Мессенджер. В нем можно вести каналы, совершать аудио- и видеозвонки. Одна из оригинальных функций - расшифровка голосовых сообщений, которая использует продвинутые голосовые технологии Яндекса. Кроме отдельных приложений для iOS и Android, мессенджер встроен в мобильное приложение Яндекса, десктопный браузер и главную страницу поисковика. В мессенджере уже есть все пользователи Яндекса. Достаточно разрешить доступ к контактам.


2020. В виртуальной АТС Телфин.Офис появилось распознавание речи



В виртуальной АТС Телфин.Офис появилась новая услуга - преобразование речи в текст. Ее можно использовать для контроля сотрудников (например, на соблюдение стандартов обслуживания клиентов по телефону), выявления реальных потребностей клиентов, оценки их уровня удовлетворенности, оптимизации скриптов продаж. Также, эта функция пригодится для безопасности: например, можно анализировать диалоги на наличие в них фраз типа «перезвоню вам с другого номера», «запишите мой личный мобильный» и т. д. Функция преобразования речи в текст полезна для менеджеров и руководителей отделов продаж и маркетинга, операторов колл-центров, а также журналистов, копирайтеров, переводчиков для расшифровки интервью и комментариев экспертов. До конца месяца распознавание речи будет работать бесплатно, а далее 1 минута перевода будет стоить 85 копеек.


2020. В России придумали бейджи с микрофонами для анализа речи сотрудников



Российский стартап Voca.Tech в партнёрстве с Яндекс.Облаком представил бейджи с микрофонами для автоматического анализа речи сотрудников Voca.Badge. Устройства предназначены для розничных сетей, банков и других компаний с большим количеством сотрудников первой линии общения с клиентами. Бейдж записывает речь сотрудника и через Wi-Fi передаёт файл в Яндекс.Облако, где технология Yandex SpeechKit распознаёт и переводит речь в текст. Программа покажет работодателю, насколько вежливо и эффективно сотрудник общался с клиентом: например, дал ли он ему полную, достоверную и понятную информацию о товаре, не использовал ли слова паразиты и так далее. Бейдж может автономно работать до 12 часов и различать речь даже в условиях шума торгового зала. Один бейдж стоит 9,5 тыс руб. За аналитику и распознавание речи нужно платить отдельно.


2019. В GoToMeeting улучшили интерфейс и распознавание речи


Американская компания LogMeIn выпустила новую версию своей популярной системы видеоконференций GoToMeeting. В ней реализован полностью обновленный пользовательский интерфейс, унифицированный для различных девайсов. Также разработчики хорошо поработали над передачей звука и обещают высокое качество даже при медленном интернете. Для фиксации результатов видео-встреч появились заметки, которые можно делать в реальном времени и функция распознавания речи, которая позволяет читать лог видеоконференции в форме диалога. Организаторы встреч теперь могут создавать брендированные виртуальные переговорные и в любое время собирать в них свою команду для общения и совместной работы. Обновлены интеграции с Office 365, Outlook, Google Calendar и Slack.


2019. В Яндекс.Почте появились голосовые сообщения и голосовой набор



Яндекс наконец-то решил использовать свои (классные) речевые технологии SpeechKit в собственных сервисах. Яндекс.Почта запустила в приложении на iOS функцию голосового набора писем. К письму прикрепляется аудиофайл — на случай, если в тексте появилась ошибка, а исправлять её некогда. Также сервис теперь может прочитать вслух заголовок сообщения и его текст — системные технологии озвучивания зачитывают весь текст на экране, а не только письмо. На момент запуска функция доступна части пользователей iOS-приложения, к середине октября 2019 года она появится у всех пользователей платформы.


2019. Google выпустил Android 10 с распознаванием речи


Google выпустил новую версию операционной системы Android 10. Пока она доступна только для смартфонов Google Pixel, а к пользователям других телефонов долетит до конца года. Пожалуй самая интересная новая фича - это распознавание речи. Она позволяет показывать субтитры в любом видео или в камере при съемке видео. Фишка в том, что оно работает даже в отсутствии интернета. Другие новшества: темный режим (говорят, очень экономит батарею), центр управления приватностью с 50 новыми опциями, быстрая установка патчей безопасности, новый жест для возврата назад, «Умный ответ» - различные действия с уведомлениями (например, ссылку система сразу предложит открыть в Chrome, видео — в YouTube, адрес — в приложении карт).


2019. Сбербанк купил знаменитого разработчика систем распознавания голоса



Сбербанк купил 51% акций компании Центр Речевых Технологий, разрабатывающей технологии анализа и синтеза речи, а также распознавания лиц. До этого разработчик полностью принадлежал Газпромбанку. У Сбербанка уже есть опыт использования разработок ЦРТ в своих продуктах. В частности, на их основе была создана цифровая телеведущая Елена, которую банк представил в апреле 2019 г. До этого в июне 2017 г. Сбербанк начал внедрение разработок компании в собственной биометрической системе защиты информации. Технологии ЦРТ позволяют идентифицировать клиентов банка по голосу, сравнивая его с заранее записанным образцом.


2019. Тинькофф запустил сервисы распознавания и синтеза речи



Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.


2019. Google запустил телефонного помощника для малого бизнеса


Google запустил сервис CallJoy, который представляет собой умный автоответчик (IVR) для малого бизнеса и (по задумке) должен дать людям возможность работать, вместо того, чтоб отвечать на звонки. Разумеется, фишкой сервиса является гугловский ИИ-ассистент, который умеет распознавать речь и отвечать на более-менее стандартные вопросы. Если запрос клиента может быть обработан на сайте (например, он желает записаться на прием или сделать заказ), CallJoy может выслать нужную ссылку по SMS. Если же клиент желает поговорить с представителем организации, то помощник соединит. Он также отфильтрует нежелательные спам-звонки. Владельцу бизнеса предоставляет дашборд со списком звонков и записью разговоров. Стоимость помощника для одного номера составляет $39 в месяц.


2018. Salesforce позволяет вводить данные в CRM голосом



Менеджеры по продажам любят говорить. Фактически, их работа сводится к тому, чтоб говорить. Но когда дело доходит до ввода информации о клиентах в CRM систему - им приходится печатать. Salesforce хочет избавить продажников от такого когнитивного диссонанса. Новая фича Einstein Voice позволяет вводить данные в систему с помощью естественной речи. Представьте, садясь за руль, вы просто запускаете мобильное приложение и рассказываете виртуальному ассистенту: "Только что я встречался с Джоном Смитом. Он заинтересован в покупке, но договорились созвониться через неделю..." (все это на английском, конечно). И виртуальный ассистент аккуратно добавляет заметку в историю по данному клиенту. Правда, Salesforce нужно что-то менять с личностью виртуального ассистента. Как-то неправильно заставлять Эйнштейна выполнять такие простые задачи.


2017. Ozlo превратился в API для разговорных интерфейсов



Помните нового виртуального ассистента Ozlo? Он передумал быть виртуальным ассистентом. Вместо этого, он решил помочь разработчикам быстро создавать разговорные интерфейсы к своим приложениям (за денюжку, конечно). Ozlo предлагает свою модель мира, которая состоит из 2 млрд фактов и к ней 3 API интерфейса: Data API - для пополнения/изменения модели мира (графа знаний), Intent API - для понимания вопросов пользователей (преобразования слов в смысл), и Converse API - для формулирования ответа (преобразования смысла в слова). Пример работы Ozlo виден на картинке. Исходя из вопроса "Можно ли завалить толпой в реторан Gravity и пожрать там устриц", он определил, что в данном ресторане подают устриц и приветствуют групповые посиделки и сформулировал ответ.


2016. Microsoft добилась наилучшего в истории результата в распознавании речи



Вслед за победой на конкурсе распознавания изображений, Microsoft установила рекорд по распознаванию речи (по крайней мере так говорят в Microsoft). Нейросеть компании достигла точности распознавания 93,7%. По словам Сюэдона Хуана (на фото), главного специалиста по данной теме в Microsoft, им удалось изобрести новый тип связи между разными слоями нейронной сети. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий CNTK, который позволяет запускать глубинные обучающие алгоритмы. Шагом вперед также стала параллельная подстройка графических процессоров (GPU).


2014. Яндекс запустил облачную платформу распознавания речи



Яндекс запустил облачный сервис SpeechKit Cloud, при помощи которого разработчики могут встроить в свои продукты технологию распознавания речи. Так что теперь можно ожидать появления различных приложений, использующих эту технологию. В бизнес-сфере это могут быть онлайн приложения для голосового ввода текста, протоколирования встреч (например, приема пациентов в клинике), а главное - для создания интерактивных голосовых меню (IVR) в АТС и Call-центрах. Кстати, компания Oktell уже недавно встроила движок распознавания речи Яндекса в свою АТС. Также, на днях оператор Мегафон объявил о внедрении в службу поддержки электронной девушки Лены, которая распознает речь и может разговаривать с клиентами (правда, в этом случае используется не яндексовская технология). Создание таких интеллектуальных голосовых меню позволит повысить удобство для клиентов и сэкономить на количестве операторов, отвечающих на одни и те же вопросы.