Награда за глубокое обучение DDPGPython

Программы на Python
Ответить
Anonymous
 Награда за глубокое обучение DDPG

Сообщение Anonymous »

В настоящее время я использую DDPG, чтобы минимизировать затраты. Я пробовал множество логически обоснованных, но более сложных схем вознаграждения, но ни одна из них не дала хороших результатов в обучении. Поэтому я решил начать с самой простой формулировки вознаграждения, вознаграждение = -total_cost, и понаблюдать за тенденциями обучения.
Однако во время обучения я столкнулся с серьезной проблемой. Когда кажется, что вознаграждение сходится, его значение фактически стабилизируется на более низком уровне, в то время как соответствующая стоимость продолжает расти по мере прохождения обучения. Такое поведение явно противоречит цели и указывает на критическую проблему. (Модель была обучена до 5000 эпизодов.)
На этом этапе я проверил, что:
  • Логика среды верна
  • Знак вознаграждения (положительный/отрицательный) не ошибочен
  • Шум исследования уже уменьшен
Поэтому я хотел бы спросить:
  • Каковы общие причины такого поведения?
  • Какими должны быть следующие шаги по отладке или улучшению обучения?
  • Есть ли в моем подходе какое-либо фундаментальное заблуждение, которое мне следует пересмотреть?


Подробнее здесь: https://stackoverflow.com/questions/798 ... p-learning
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»