исходный код доступен здесь
Я реализовал физику и метод политического градиента из урока : https://huggingface.co/learn/deep-rl-co ... 4/hands-on
Тот же код способен решить проблему со столбом тележки.
Но Я изо всех сил пытаюсь стать агентом переместить ракетку, чтобы поймать мяч.
Окружающая среда:
- мяч бросают слева направо с помощью некоторой начальной скорости
- с правой стороны игрового поля находится ракетка, которая может двигаться вверх или вниз
- награда назначается при попадании мяча попадает в противоположную сторону поля. +10, если ракетка попадет, -10, если промахнется.
После обучения платформа либо поднимается вверх, либо опускается вниз и остается там.
Моя идея заключалась в том, что она изучает концепцию гравитации и параболической кривой или, по крайней мере, пытается следовать координате Y. мяча,
но это не происходит.
Есть ли у вас какие-либо советы о том, как настроить мои параметры или функцию вознаграждения?
Любая помощь приветствуется.
Подробнее здесь: https://stackoverflow.com/questions/792 ... trajectory