Исследователи из Чикагского университета под руководством Эмили Венгер разработали нейросеть для синтеза человеческого голоса: она смогла обмануть системы распознавания речи и даже других людей.
Сегодня много систем используют идентификацию пользователя по голосу, например, умные колонки Яндекса распознают голос владельца, а в свой аккаунт в WeChat можно войти, если сказать определенную фразу. Разработчики этих и других сервисов исходят из того, что голос человека уникален и это надежное средство для подтверждения свей личности.
Но системы синтезирования человеческого голоса быстро учатся. Авторы новой работы решили проверить, на сколько хорошо алгоритм подстраивается под определенный тембр и интонацию. Авторы исходили из ситуации, в которой у злоумышленника есть доступ к образцам голоса жертвы в виде публично доступных аудио или видеозаписей, а также возможность вживую пообщаться с ним и записать речь.
Общая длина всей записи голоса — не более 5 мин. Далее на основе этих данных злоумышленник мог дообучить алгоритм до желаемого результата. Использовать при этом можно было только публично доступные алгоритмы, авторы выбрали два: SV2TTS и AutoVC. Для обучения моделей авторы использовали записи речи 90 людей из трех публичных датасетов: VCTK, LibriSpeech и SpeechAccent.
Во время тестирования успешнее всего показала себя модель SV2TTS и датасет VCTK. Для Resemblyzer доля успешных атак составила 50,5 ± 13,4%, для Azure — 29,5 ± 32%.
Для тестирования WeChat и голосового помощника Alexa исследователи привлекли 14 добровольцев: сначала они обучали модель своему голосу, а затем проверяли систему на синтезированных записях. В итоге 9 из 14 человек удалось войти в WeChat, а Alexa рано или поздно смогли обмануть все.
Также при разговоре с алгоритмом человек не мог отличить настоящий голос от поддельного в 50%.
Источник
Journal information