как я могу изменить начальную точку появления тележки при сбросе окружения? Мне нужно использовать собственное вознаграждение при тестировании. Вознаграждение типа:
def new_reward(state, x0):
s = state[0]
theta = state[2]
max_reward = 500
min_reward = 0
r_center = np.exp(-((s - x0) ** 2) / 0.5)
r_angle = np.exp(-(theta ** 2) / 0.1)
reward = r_center+0.5*r_angle
return reward
однако я в этом не уверен. Есть совет?
Кроме того, x0 — это начальная точка появления.
Я попробовал передать: --central_point 1.0, так как по умолчанию это 0.0:
parser.add_argument("--central_point", type=float, default=None,
help="Point x0 to fluctuate around")
я также пробовал изменить его вручную:
def train(agent, env, train_episodes, early_stop=True, render=False,
silent=False, train_run_id=0, x0=0.0, random_policy=False):
или измените его после сброса:
observation = env.reset()
x0 = 2
Подробнее здесь: https://stackoverflow.com/questions/792 ... pawn-point
Точка появления спортзала Cartpole ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение