Код для ppop и a2c то же самое:
Код: Выделить всё
ppo:
import os
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.logger import configure
from stable_baselines3.common.vec_env import SubprocVecEnv
log_path_ppo = "log/ppo_cartpole_tensorboard/"
#log_path_ppo = "log/ppo_lunar_tensorboard/"
model_ppo.set_logger(configure(log_path_ppo, ["tensorboard"]))
model_ppo.learn(total_timesteps=5000,log_interval=1000, progress_bar=True)
model_ppo.save("ppo_cartpole_model")
# model_ppo.save("ppo_lunar_model")
del model_ppo
del env
Код: Выделить всё
a2c:
import os
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.logger import configure
from stable_baselines3.common.vec_env import SubprocVecEnv
# log_path_a2c = "log/a2c_cartpole_tensorboard/lunar-env/"
log_path_a2c = "log/a2c_cartpole_tensorboard/"
model_a2c.set_logger(configure(log_path_a2c, ["tensorboard"]))
model_a2c.learn(total_timesteps=5000,log_interval=1000, progress_bar=True)
model_a2c.save("a2c_cartpole_model")
#model_a2c.save("a2c_lunar_model")
del model_a2c
del env
Для a2c это работает и создает все необходимые графики для тензорной доски, но для ppo это работает нет.
Я пробовал использовать другой синтаксис из документации, который снова работал только для a2c. ([https://stable-baselines3.readthedocs.i ... asic-usage]).
Также попробовал добавить запись в код ppop вместо регистратор, хотя он и работал, записывая информацию в код события, но тензорная доска могла загружать графики, логистика, скорее всего, была неправильной в этом коде.
Пытался установить стабильные базовые линии3 с помощью [ EXTRA] тег, но это тоже не сработало.
Подробнее здесь: https://stackoverflow.com/questions/793 ... ac-and-td3
Мобильная версия