luckyea77 (luckyea77) wrote,
luckyea77
luckyea77

Categories:

OpenAI научила алгоритм ориентироваться в незнакомой ситуации



Новая среда обучения ИИ переносит опыт в новое окружение. Выглядит она как игра-платформер, но открывает серьезную перспективу создания гибких и «разумных» алгоритмов.

Обучение с подкреплением — одна из главных технологий машинного обучения. Она полирует алгоритм методом кнута и пряника — вручая награды за верный результат. Но есть проблема: такой подход не позволяет создать модели с высоким уровнем генерализации. Проще говоря, обученные в определенном окружении ИИ-агенты не могут перенести свой опыт на новые обстоятельства.

Эту проблему пытается решить платформер CoinRun, созданный на базе обучающей программы Spinning Up. Она знакомит с основами глубокого обучения с подкреплением и также разработана специалистами OpenAI, рассказывает VentureBeat.

«CoinRun достигает желаемого баланса сложности: окружение намного проще, чем в традиционных платформерах вроде Sonic the Hedgehog, но все еще представляет сложность для современных алгоритмов, — говорится в блоге OpenAI. — Уровни CoinRun генерируются процедурно, предоставляя агентам доступ к обширному запасу легко измеримых обучающих данных».

Как объясняет OpenAI, предшествующие работы по созданию среды для обучения с подкреплением сосредотачивались на процедурно создаваемых лабиринтах и играх типа Sonic the Hedgehog, в которых успех обучения измерялся после прохождения нескольких уровней. В CoinRun же агент получает вознаграждение в конце каждого уровня.



Кроме того, OpenAI разработала две дополнительных среды для исследования переобучения — ситуации, когда задача слишком хорошо выполняется на обучающей выборке, и плохо — на других массивах данных.

Для оценки эффективности CoinRun команда разработчиков протестировала 9 ИИ-агентов, каждый из которых прошел разное число обучающих уровней. Первым восьми досталось от 100 до 16 000 уровней, а последнему около двух миллионов. Он и оказался самым успешным учеником.

«При помощи процедурно сгенерированной среды CoinRun мы можем точно измерить это переобучение, — сказано в пресс-релизе. — С этой метрикой мы лучше оценим ключевые архитектурные и алгоритмические решения. Мы считаем, что уроки, усвоенные в этой среде, могут быть перенесены на более сложные условия. И надеемся использовать это тестирование и ему подобные для подготовки более генеральных агентов».

Tags: искусственный интеллект
Subscribe

Posts from This Journal “искусственный интеллект” Tag

promo nemihail 11:00, вчера 116
Buy for 20 tokens
Трудно представить, что сейчас можно чувствовать себя комфортно, при этом не общаясь с техникой на «ты». Скорее даже — на «эй ты, хеллоу, где мой горячий чай?» ))) Я говорю не про машины, самолеты или космические корабли, здесь другая история. Я про банальное:…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments