Amazon и специалисты из Кембриджа на базе разработки Google WaveNet создали трехступенчатый алгоритм, который анализирует мелодию и поет ее. ИИ разбирается в интонациях и подаче, но не в знаках препинания.
Алгоритмы уже пытаются создавать картины, литературные произведения и даже симфонии, а теперь исследователи из Кембриджа и компании Amazon научили алгоритм петь. Чтобы сопоставить нотную запись с текстом и получить звуки, понадобился уникальный ИИ. Итоги работы опубликованы на сервере препринтов ArXiv.
Алгоритм объединяет три части. Первая разбирает и преобразует нотную запись для работы алгоритма, передавая ее кодировщику. На следующем этапе кодировщик на основании нот и текста создает мелодичные спектрограммы — примерно по десятку на каждую секунду звучания. Наконец, в завершение WaveNet озвучивает их, придавая «голосу» силу и интонацию, а также синхронизируя звучание спектрограмм и песню.
Создатели утверждают, что их подход требует значительно меньше вмешательства, чем любые другие похожие алгоритмы. Но результаты пока нельзя назвать безупречными.
Для тестирования ученые наняли 22 слушателей, которых попросили по шкале от 0 до 100 оценить натуральность коротких отрезков звучания — длительностью от трех до пяти секунд. Даже на такой небольшой дистанции средний балл — 59%. Особенно неправдоподобно звучали фрагменты в низком регистре — слушатели часто жаловались на то, что ИИ «жует» слова.
С другой стороны, участники исследования отметили, что модель поет по нотам и вполне прилично справляется с простыми песнями, в которых не было экстремально высоких или низких нот. Также ИИ, прослушав около 40 часов записей, научился правдоподобно воспроизводить вибрато, применяя эффект к нужным нотам — более длительным, чем обычно.
Journal information