Награда за глубокое обучение DDPG

Награда за глубокое обучение DDPG ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 05 янв 2026, 18:12

В настоящее время я использую DDPG, чтобы минимизировать затраты. Я пробовал множество логически обоснованных, но более сложных схем вознаграждения, но ни одна из них не дала хороших результатов в обучении. Поэтому я решил начать с самой простой формулировки вознаграждения, вознаграждение = -total_cost, и понаблюдать за тенденциями обучения.
Однако во время обучения я столкнулся с серьезной проблемой. Когда кажется, что вознаграждение сходится, его значение фактически стабилизируется на более низком уровне, в то время как соответствующая стоимость продолжает расти по мере прохождения обучения. Такое поведение явно противоречит цели и указывает на критическую проблему. (Модель была обучена до 5000 эпизодов.)
На этом этапе я проверил, что:

Логика среды верна
Знак вознаграждения (положительный/отрицательный) не ошибочен
Шум исследования уже уменьшен

Поэтому я хотел бы спросить:

Каковы общие причины такого поведения?
Какими должны быть следующие шаги по отладке или улучшению обучения?
Есть ли в моем подходе какое-либо фундаментальное заблуждение, которое мне следует пересмотреть?

Подробнее здесь: https://stackoverflow.com/questions/798 ... p-learning

1767625948

Anonymous

В настоящее время я использую DDPG, чтобы минимизировать затраты. Я пробовал множество логически обоснованных, но более сложных схем вознаграждения, но ни одна из них не дала хороших результатов в обучении. Поэтому я решил начать с самой простой формулировки вознаграждения, вознаграждение = -total_cost, и понаблюдать за тенденциями обучения.
Однако во время обучения я столкнулся с серьезной проблемой. Когда кажется, что вознаграждение сходится, его значение фактически стабилизируется на более низком уровне, в то время как соответствующая стоимость продолжает расти по мере прохождения обучения. Такое поведение явно противоречит цели и указывает на критическую проблему. (Модель была обучена до 5000 эпизодов.)
На этом этапе я проверил, что:
[list]
[*]Логика среды верна

[*]Знак вознаграждения (положительный/отрицательный) не ошибочен

[*]Шум исследования уже уменьшен

[/list]
Поэтому я хотел бы спросить:
[list]
[*]Каковы общие причины такого поведения?

[*]Какими должны быть следующие шаги по отладке или улучшению обучения?

[*]Есть ли в моем подходе какое-либо фундаментальное заблуждение, которое мне следует пересмотреть?

[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79860916/reward-in-ddpg-deep-learning[/url]