Распознавание речи для бизнеса


10.10.19. В GoToMeeting улучшили интерфейс и распознавание речи


Американская компания LogMeIn выпустила новую версию своей популярной системы видеоконференций GoToMeeting. В ней реализован полностью обновленный пользовательский интерфейс, унифицированный для различных девайсов. Также разработчики хорошо поработали над передачей звука и обещают высокое качество даже при медленном интернете. Для фиксации результатов видео-встреч появились заметки, которые можно делать в реальном времени и функция распознавания речи, которая позволяет читать лог видеоконференции в форме диалога. Организаторы встреч теперь могут создавать брендированные виртуальные переговорные и в любое время собирать в них свою команду для общения и совместной работы. Обновлены интеграции с Office 365, Outlook, Google Calendar и Slack.


2019. В Яндекс.Почте появились голосовые сообщения и голосовой набор


Яндекс наконец-то решил использовать свои (классные) речевые технологии SpeechKit в собственных сервисах. Яндекс.Почта запустила в приложении на iOS функцию голосового набора писем. К письму прикрепляется аудиофайл — на случай, если в тексте появилась ошибка, а исправлять её некогда. Также сервис теперь может прочитать вслух заголовок сообщения и его текст — системные технологии озвучивания зачитывают весь текст на экране, а не только письмо. На момент запуска функция доступна части пользователей iOS-приложения, к середине октября 2019 года она появится у всех пользователей платформы.


2019. Google выпустил Android 10 с распознаванием речи


Google выпустил новую версию операционной системы Android 10. Пока она доступна только для смартфонов Google Pixel, а к пользователям других телефонов долетит до конца года. Пожалуй самая интересная новая фича - это распознавание речи. Она позволяет показывать субтитры в любом видео или в камере при съемке видео. Фишка в том, что оно работает даже в отсутствии интернета. Другие новшества: темный режим (говорят, очень экономит батарею), центр управления приватностью с 50 новыми опциями, быстрая установка патчей безопасности, новый жест для возврата назад, «Умный ответ» - различные действия с уведомлениями (например, ссылку система сразу предложит открыть в Chrome, видео — в YouTube, адрес — в приложении карт).


2019. Сбербанк купил знаменитого разработчика систем распознавания голоса


Сбербанк купил 51% акций компании Центр Речевых Технологий, разрабатывающей технологии анализа и синтеза речи, а также распознавания лиц. До этого разработчик полностью принадлежал Газпромбанку. У Сбербанка уже есть опыт использования разработок ЦРТ в своих продуктах. В частности, на их основе была создана цифровая телеведущая Елена, которую банк представил в апреле 2019 г. До этого в июне 2017 г. Сбербанк начал внедрение разработок компании в собственной биометрической системе защиты информации. Технологии ЦРТ позволяют идентифицировать клиентов банка по голосу, сравнивая его с заранее записанным образцом.


2019. Тинькофф запустил сервисы распознавания и синтеза речи


Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.


2019. Google запустил телефонного помощника для малого бизнеса


Google запустил сервис CallJoy, который представляет собой умный автоответчик (IVR) для малого бизнеса и (по задумке) должен дать людям возможность работать, вместо того, чтоб отвечать на звонки. Разумеется, фишкой сервиса является гугловский ИИ-ассистент, который умеет распознавать речь и отвечать на более-менее стандартные вопросы. Если запрос клиента может быть обработан на сайте (например, он желает записаться на прием или сделать заказ), CallJoy может выслать нужную ссылку по SMS. Если же клиент желает поговорить с представителем организации, то помощник соединит. Он также отфильтрует нежелательные спам-звонки. Владельцу бизнеса предоставляет дашборд со списком звонков и записью разговоров. Стоимость помощника для одного номера составляет $39 в месяц.


2018. Salesforce позволяет вводить данные в CRM голосом


Менеджеры по продажам любят говорить. Фактически, их работа сводится к тому, чтоб говорить. Но когда дело доходит до ввода информации о клиентах в CRM систему - им приходится печатать. Salesforce хочет избавить продажников от такого когнитивного диссонанса. Новая фича Einstein Voice позволяет вводить данные в систему с помощью естественной речи. Представьте, садясь за руль, вы просто запускаете мобильное приложение и рассказываете виртуальному ассистенту: "Только что я встречался с Джоном Смитом. Он заинтересован в покупке, но договорились созвониться через неделю..." (все это на английском, конечно). И виртуальный ассистент аккуратно добавляет заметку в историю по данному клиенту. Правда, Salesforce нужно что-то менять с личностью виртуального ассистента. Как-то неправильно заставлять Эйнштейна выполнять такие простые задачи.


2017. Ozlo превратился в API для разговорных интерфейсов


Помните нового виртуального ассистента Ozlo? Он передумал быть виртуальным ассистентом. Вместо этого, он решил помочь разработчикам быстро создавать разговорные интерфейсы к своим приложениям (за денюжку, конечно). Ozlo предлагает свою модель мира, которая состоит из 2 млрд фактов и к ней 3 API интерфейса: Data API - для пополнения/изменения модели мира (графа знаний), Intent API - для понимания вопросов пользователей (преобразования слов в смысл), и Converse API - для формулирования ответа (преобразования смысла в слова). Пример работы Ozlo виден на картинке. Исходя из вопроса "Можно ли завалить толпой в реторан Gravity и пожрать там устриц", он определил, что в данном ресторане подают устриц и приветствуют групповые посиделки и сформулировал ответ.


2016. Microsoft добилась наилучшего в истории результата в распознавании речи


Вслед за победой на конкурсе распознавания изображений, Microsoft установила рекорд по распознаванию речи (по крайней мере так говорят в Microsoft). Нейросеть компании достигла точности распознавания 93,7%. По словам Сюэдона Хуана (на фото), главного специалиста по данной теме в Microsoft, им удалось изобрести новый тип связи между разными слоями нейронной сети. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий CNTK, который позволяет запускать глубинные обучающие алгоритмы. Шагом вперед также стала параллельная подстройка графических процессоров (GPU).


2014. Яндекс запустил облачную платформу распознавания речи


Яндекс запустил облачный сервис SpeechKit Cloud, при помощи которого разработчики могут встроить в свои продукты технологию распознавания речи. Так что теперь можно ожидать появления различных приложений, использующих эту технологию. В бизнес-сфере это могут быть онлайн приложения для голосового ввода текста, протоколирования встреч (например, приема пациентов в клинике), а главное - для создания интерактивных голосовых меню (IVR) в АТС и Call-центрах. Кстати, компания Oktell уже недавно встроила движок распознавания речи Яндекса в свою АТС. Также, на днях оператор Мегафон объявил о внедрении в службу поддержки электронной девушки Лены, которая распознает речь и может разговаривать с клиентами (правда, в этом случае используется не яндексовская технология). Создание таких интеллектуальных голосовых меню позволит повысить удобство для клиентов и сэкономить на количестве операторов, отвечающих на одни и те же вопросы.