Стабильные_базовые линии3: почему награда не соответствует сравнению ep_info_buffer с оценкой?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Стабильные_базовые линии3: почему награда не соответствует сравнению ep_info_buffer с оценкой?

Сообщение Anonymous »

Я работал с библиотекой Stable_baselines3 и обнаружил то, чего не ожидал.
Вот простой код, воспроизводящий проблему:

Код: Выделить всё

import gymnasium as gym

from stable_baselines3 import DQN

env = gym.make("CartPole-v1")

model = DQN("MlpPolicy", env, verbose=0, stats_window_size=100_000)
model.learn(total_timesteps=100_000)
Взглянем на награду за последний эпизод:

Код: Выделить всё

print(model.ep_info_buffer[-1])
{'r': 409,0, 'l': 409, 't': 54,87983
Но если я оценю модель с помощью следующего кода:

Код: Выделить всё

obs, info = env.reset()
total_reward = 0
while True:
action, _states = model.predict(obs, deterministic=True)
obs, reward, terminated, truncated, info = env.step(action)
total_reward = total_reward + reward
if terminated or truncated:
obs, info = env.reset()
break

print("total_reward {}".format(total_reward))
total_reward 196.0

Я получаю другую награду, чего не ожидал .
Я ожидал получить тот же код 409, что и в model.ep_info_buffer[-1].
Почему такая разница? Это .ep_info_buffer — это другое, чем награда за эпизод?

Подробнее здесь: https://stackoverflow.com/questions/793 ... fer-vs-eva
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Стабильные_базовые линии3: почему вознаграждение не соответствует сравнению ep_info_buffer с оценкой?
    Anonymous » » в форуме Python
    0 Ответы
    7 Просмотры
    Последнее сообщение Anonymous
  • Стабильные_базовые линии3: почему вознаграждение не соответствует сравнению ep_info_buffer и оценки?
    Anonymous » » в форуме Python
    0 Ответы
    8 Просмотры
    Последнее сообщение Anonymous
  • Buffer Buffer Opengl Buffic
    Anonymous » » в форуме C++
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous
  • Buffer Buffer Opengl Buffic
    Anonymous » » в форуме Linux
    0 Ответы
    15 Просмотры
    Последнее сообщение Anonymous
  • Buffer Buffer Opengl Buffic
    Anonymous » » в форуме C++
    0 Ответы
    9 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»