Однако во время обучения я столкнулся с серьезной проблемой. Когда кажется, что вознаграждение сходится, его значение фактически стабилизируется на более низком уровне, в то время как соответствующая стоимость продолжает расти по мере прохождения обучения. Такое поведение явно противоречит цели и указывает на критическую проблему. (Модель была обучена до 5000 эпизодов.)
На этом этапе я проверил, что:
- Логика среды верна
- Знак вознаграждения (положительный/отрицательный) не ошибочен
- Шум исследования уже уменьшен
- Каковы общие причины такого поведения?
- Какими должны быть следующие шаги по отладке или улучшению обучения?
- Есть ли в моем подходе какое-либо фундаментальное заблуждение, которое мне следует пересмотреть?
Подробнее здесь: https://stackoverflow.com/questions/798 ... p-learning
Мобильная версия