luckyea77 (luckyea77) wrote,
luckyea77
luckyea77

Categories:

OpenAI научила алгоритм ориентироваться в незнакомой ситуации



Новая среда обучения ИИ переносит опыт в новое окружение. Выглядит она как игра-платформер, но открывает серьезную перспективу создания гибких и «разумных» алгоритмов.

Обучение с подкреплением — одна из главных технологий машинного обучения. Она полирует алгоритм методом кнута и пряника — вручая награды за верный результат. Но есть проблема: такой подход не позволяет создать модели с высоким уровнем генерализации. Проще говоря, обученные в определенном окружении ИИ-агенты не могут перенести свой опыт на новые обстоятельства.

Эту проблему пытается решить платформер CoinRun, созданный на базе обучающей программы Spinning Up. Она знакомит с основами глубокого обучения с подкреплением и также разработана специалистами OpenAI, рассказывает VentureBeat.

«CoinRun достигает желаемого баланса сложности: окружение намного проще, чем в традиционных платформерах вроде Sonic the Hedgehog, но все еще представляет сложность для современных алгоритмов, — говорится в блоге OpenAI. — Уровни CoinRun генерируются процедурно, предоставляя агентам доступ к обширному запасу легко измеримых обучающих данных».

Как объясняет OpenAI, предшествующие работы по созданию среды для обучения с подкреплением сосредотачивались на процедурно создаваемых лабиринтах и играх типа Sonic the Hedgehog, в которых успех обучения измерялся после прохождения нескольких уровней. В CoinRun же агент получает вознаграждение в конце каждого уровня.



Кроме того, OpenAI разработала две дополнительных среды для исследования переобучения — ситуации, когда задача слишком хорошо выполняется на обучающей выборке, и плохо — на других массивах данных.

Для оценки эффективности CoinRun команда разработчиков протестировала 9 ИИ-агентов, каждый из которых прошел разное число обучающих уровней. Первым восьми досталось от 100 до 16 000 уровней, а последнему около двух миллионов. Он и оказался самым успешным учеником.

«При помощи процедурно сгенерированной среды CoinRun мы можем точно измерить это переобучение, — сказано в пресс-релизе. — С этой метрикой мы лучше оценим ключевые архитектурные и алгоритмические решения. Мы считаем, что уроки, усвоенные в этой среде, могут быть перенесены на более сложные условия. И надеемся использовать это тестирование и ему подобные для подготовки более генеральных агентов».

Tags: искусственный интеллект
Subscribe

Posts from This Journal “искусственный интеллект” Tag

promo luckyea77 june 21, 2015 20:04 27
Buy for 10 tokens
В этой записи я буду давать ссылки на посты с лекциями и уроками в этом блоге: Учебные материалы и тесты: Дистанционное образование Правила дорожного движения 11 ресурсов для бесплатного образования Сайты для обучения программированию Игры, в которых нужно писать код: Grid Garden, Elevator…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments