luckyea77 (luckyea77) wrote,
luckyea77
luckyea77

Искусственный интеллект озвучил «немые» видео



Ученые из Массачусетского технологического института и Стэнфордской лаборатории искусственного интеллекта создали систему искусственного интеллекта, которая способна озвучить «немое» видео, генерируя звуки на основе предсказанных свойств объектов. Исследование авторов будет представлено на ежегодной конференции по машинному зрению и распознаванию образов (CVPR), также оно выложено на сайте ArXiv.

Для своей работы ученые использовали систему искусственного интеллекта на основе сверточной и рекуррентной нейросети. Они создали 977 видеороликов, в которых люди с помощью барабанной палочки бьют и царапают объекты из разных материалов, — в сумме было совершено 46577 действий. Исследователи вручную разметили видеоряд, указав тип материала, место удара, характер действия (удар или царапина), а также ответную реакцию на удар (разбрасывание, деформация или всплеск). Эти метки использовались только для того, чтобы оценить работу системы, а не для ее обучения.


Материалы и характер взаимодействия, использовавшиеся для обучения искусственного интеллекта

Искусственный интеллект анализировал громкость и высоту звуков, соответствовавших разным типам взаимодействий. Чтобы предсказать, как звучит видео, он изучал отдельные кадры и звуки в них, а потом сопоставлял их с наиболее похожими из базы данных.

После тренировки система научилась самостоятельно генерировать разнообразные звуки, начиная с глухих стуков и заканчивая шуршанием плюща. Звуки из базы данных в дальнейшем не использовались.



«Существующие подходы к искусственному интеллекту фокусируются только на одном из пяти органов чувств — например, специалисты по машинному зрению используют изображения, исследователи в области распознавания речи используют аудиодорожки. Эта работа приближает нас к имитации процесса обучения у человека, объединяя звук и зрение», — комментирует один из авторов работы.


Сравнение сгенерированного и настоящего звука

Эффективность системы исследователи проверили, проведя онлайн-исследование на Amazon Mechanical Turk. Добровольцы должны были сравнить два варианта «озвучки» видеоролика и решить, какой из представленных вариантов соответствует настоящему звуку. В итоге в 40 процентах случаев искусственный интеллект смог обмануть людей. Наиболее реалистичными оказались звуки листьев и грязи (последний назвали истинным приблизительно в 62 процентах видеороликов), а наименее — дерева и металла (металл звучал натурально только в 18 процентах случаев).

Кроме того, искусственный интеллект научился определять твердость материала. Для этого ученые разделили все видео на две группы (твердые и мягкие материалы) и натренировали систему с помощью реальных звуков. В результате алгоритм смог определить по предсказанному звуку тип материала с точностью до 67 процентов.

Тем не менее, созданная учеными система еще требует доработки. Она умеет генерировать звуки, которые получаются при соприкосновении с объектом, однако, например, для шума ветра прямого контакта не требуется. Кроме того, алгоритм ошибается, когда объекты движутся слишком быстро, и не «попадает» в нужный момент.

Tags: искусственный интеллект
Subscribe

Posts from This Journal “искусственный интеллект” Tag

promo luckyea77 june 19, 23:05 11
Buy for 10 tokens
Часть 1 Часть 2 Часть 3 Часть 4 Часть 5 Март 2018 года Индустриализация стала основным инструментом достижения экономического богатства стран, начиная с появления прядильных машин в конце XVIII века; при смене технологических укладов менялись местами мировые промышленные лидеры. Какой…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments