Я работаю над проектом со своим учителем, и мы намеревались протестировать ATRPO (TRPO со средним вознаграждением) на основе различных современных алгоритмов. Однако мне удалось найти только одну библиотеку, которая ее использует (https://github.com/sony/nnabla-rl), и, к сожалению, она реализована таким образом, что не поддерживает дискретные действия, а это значит, что мы не могли использовать предполагаемую среду.
Возможно, существует ли альтернативная реализация этого кода, которая могла бы работать для этого? Я действительно не смог найти ничего подобного, и у меня не было опыта, чтобы попытаться полностью запрограммировать это самостоятельно, поэтому я решил спросить здесь. Мне просто нужно что-то, что я мог бы использовать для сред с дискретными действиями, даже если это не входит в библиотеку.
Заранее спасибо!
Подробнее здесь: https://stackoverflow.com/questions/785 ... rete-actio
Существует ли реализация алгоритма ATRPO, допускающая дискретные действия? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение