Итак, я пытался решить проблему с картерами. Это общая проблема при работе с обучением подкрепления. По сути, у вас есть тележка, которая уравновешивает шест. Тележка может двигаться влево или вправо. Эпизод заканчивается, когда полюс падает. Весь смысл состоит в том, чтобы сохранить сбалансированный полюс как можно дольше. Среда спортзала. Но я хотел сделать это без использования этого ярлыка, так как я хочу в конечном итоге сделать свои сложные условия. Я получил его, чтобы бежать, но, похоже, это ничего не изучает. Он собирает максимум 14 очков, каждый раз. Что я делаю не так? < /P>
Итак, я пытался решить проблему с картерами. Это общая проблема при работе с обучением подкрепления. По сути, у вас есть тележка, которая уравновешивает шест. Тележка может двигаться влево или вправо. Эпизод заканчивается, когда полюс падает. Весь смысл состоит в том, чтобы сохранить сбалансированный полюс как можно дольше. Среда спортзала. Но я хотел сделать это без использования этого ярлыка, так как я хочу в конечном итоге сделать свои сложные условия. Я получил его, чтобы бежать, но, похоже, это ничего не изучает. Он собирает максимум 14 очков, каждый раз. Что я делаю не так? < /P> [code]import numpy as np import math import statistics
def update_pos(state, action, pole_angular_acceleration, pole_angle, pole_angular_velocity): if action == 0: state -= cart_speed if action == 1: state += cart_speed
# Constrain cart within screen boundaries state = max(0, min(state, SCREEN_WIDTH - CART_WIDTH))
Я пытался создать модель DQN для простой игры с тележкой, но после обучения почти 3000 эпизодов она выдает действительно странный график вознаграждений, и я не уверен, правильно ли она вообще тренируется.
Я видел другие сообщения, в которых у людей...
как я могу изменить начальную точку появления тележки при сбросе окружения? Мне нужно использовать собственное вознаграждение при тестировании. Вознаграждение типа:
def new_reward(state, x0):
s = state
theta = state
max_reward = 500
min_reward =...
Как изменить начальную точку появления тележки при сбросе окружения? Мне нужно использовать собственное вознаграждение при тестировании. Вознаграждение типа:
def new_reward(state, x0):
s = state
theta = state
max_reward = 500
min_reward = 0...
Я реализовал PPO для среды Cartpole-VO. Однако в определенных итерациях игры это не сходится. Иногда он застревает в локальном оптимуме. Я реализовал алгоритм, используя преимущество TD-0, т.е.
A(s_t) = R(t+1) + \gamma V(S_{t+1}) - V(S_t)
Вот мой...
Я попытался сделать модель DQN для простой игры Cartpole, но после обучения ее для почти 3000 эпизодов она создает действительно странный график вознаграждения, и я не уверен, что это даже правильно тренироваться. Я посмотрел и пытался решить все...