Какие данные можно получить с помощью программы распознавания речи:
*эмоциональный окрас речи (восемь эмоций – по спектру от гнева до радости);
*демографические характеристики говорящего (пол и возраст);
*полноценную стенограмму аудиоданных для дальнейшей аналитики.
«К запуску представленной функции ORBL подтолкнул запрос со стороны существующих клиентов, которые уже пользуются видеоаналитикой. Дело в том, что в совокупности оба решения – распознавание лиц и распознавание речи - дают некую синергию, которая выражается в полноте данных для принятия управленческих решений. С технической точки зрения функция распознавание речи не несёт дополнительных нагрузок на аппаратуру, оба процесса реализовываются на одном устройстве в рамках общей архитектуры. Распознавание сразу и лица, и голоса помогают общему решению работать оптимально, а бизнесу - получать бенефиты от единой архитектуры»,
отметил Антон Рудов, генеральный директор и основатель ORBL»
Прежде чем запустить продукт в коммерческую эксплуатацию, ORBL провели несколько пилотов с банками, медучреждениями. Со слов разработчика, положительная обратная связь от заказчиков говорит о том, что технология может быть использована в самых разных отраслях:
*Ритейл и сфера услуг. Это прежде всего компании, которые захотели фиксировать работу своих сотрудников в офисах и отделах продаж (магазинах) не только на видео, но и с помощью аудио. В ритейле распознавание голоса нужно для того, чтобы понимать, как происходило общение с покупателями, например, на кассе. В сфере услуг (например, салоны красоты и дилерские центры) решение помогает контролировать работу консультантов. Речь сотрудников записывается в личные микрофоны и затем преобразовывается в текст, который система анализирует на соответствие скриптам. Это очень помогает также при разборе конфликтных ситуаций с клиентами.
*Колл-центры тоже могут контролировать сотрудников на предмет того, насколько точно они следуют скриптам в ходе разговора с клиентами. Особенно это актуально для служб поддержки банков.
*Маркетинговые службы могут анализировать настроение клиентов, а также испытываемые в момент беседы эмоции, после чего выводить средние показатели удовлетворенности.
*Медицинская сфера. Например, при проведении вскрытия патологоанатомы могут заносить данные в информационную систему, «заполняя» голосом нужные поля.
*Системы аутентификации. Голос человека неповторим и его невозможно подделать. В контроле доступа по голосу заинтересованы, например, различные helpdesk системы. Голосовая биометрия для доступа к учётной записи по телефону не только распознает голос и сверяет его с образцом в базе, но и умеет отличать «живого» собеседника от записанной заранее речи. Для этого используется «капча» - робот просит собеседника просят повторить спонтанно выбранную фразу.
Технические характеристики:
*Программа может обрабатывать аудиоданные, полученные через различные устройства – например, диктофон или телефон. Конечное качество распознавания зависит от исходного качества данных. Минимальный результат – это «захват» ключевых слов, а при достаточном качестве записи заказчик получает готовую стенограмму.
*Точность распознавания при записи на диктофон достигает 95-96% при спонтанной речи, то есть когда человек не диктует или не старается специально четко проговаривать слова). Это позволяет получить готовый текст с минимальным количеством опечаток и ошибок, которые можно легко исправить в ручном режиме.
*Телефонный канал обеспечивает чуть меньшую точность – 80%. Это связано с тем, что его частота дискретизации составляет 8 кГц, тогда как при записи на диктофон – 44 кГц. Однако словарь распознавания для конкретной тематики дает прибавку точности еще в 10%. Например, для агентства недвижимости такой словарь может включать названия жилых комплексов или жаргонные обозначения типов планировок квартир.
Если говорить про точность распознавания речи в системах контроля доступа, то результат обработки голоса выражается в процентах соответствия - насколько точно он совпадает с эталонной записью в базе биометрии.
Отличия от аналогичных систем, отмеченные разработчиком:
*Это стековое решение - распознавание лица и речи в одной архитектуре. Одновременно с высокой точностью распознавания голоса, система обеспечивает распознавание лиц с точностью 99.99997% с поворотом головы до 65 градусов, минимальной освещенности в 60 лк, со скоростью 0.3-0.4 секунды.
*Горизонтальное масштабирование, обеспечивающее минимальное TCO для клиента.
*Работает не только из облака, но и локально (в основном на рынке облачные решения). ORBL не использует публичные облака, что в значительной мере, по мнению разработчика, снижает риски утечки данных. Обработка данных происходит или на сервере ORBL, или на серверах заказчиков.
*В отличие от других локальных решений, для продукта ORBL нужно меньше аппаратных ресурсов - за счёт того, что обработка данных (как видео, так и аудио) производится на видеокартах средних по мощности компьютеров. Это даёт экономию ресурсов.
Пока технические возможности системы по преобразованию речи в текст ограничены существующими запросами. Например, она не настроена на правильную расстановку знаков препинания, так как в основном используется для стандартизированного заполнения полей, а не создания литературного текста. В планах разработчика на 2020 год также есть создание интонационного распознавания речи, благодаря которому знаки препинания будут расставляться автоматически в процессе транскриптизации речи. С этой задачей вполне может справиться алгоритм машинного обучения, который проанализирует массив аудиоданных (например, аудиокниг) и выявит закономерности между интонациями говорящего и знаками препинания в тексте. Также в планах - усовершенствование функции текстовой аналитики. С её помощью заказчики смогут анализировать текстовые каналы связи с аудиторией (e-mail, чаты, форум) на предмет упоминания определённых тем и ключевых словосочетаний. Эта функция полезна и для обучения чат-ботов - чтобы они могли легко считывать опечатки и ошибки в сообщениях от клиентов, считают в ORBL. Кроме того, в компании работают над синтезом речи для создания на основе этой функции полноценных голосовых ботов, которые смогут, например, консультировать клиентов по телефону.
Источник
Journal information