Cartpole с Q-обучением ничего не изучать

Cartpole с Q-обучением ничего не изучать ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Cartpole с Q-обучением ничего не изучать

Цитата

Сообщение Anonymous » 13 фев 2025, 18:04

Итак, я пытался решить проблему с картерами. Это общая проблема при работе с обучением подкрепления. По сути, у вас есть тележка, которая уравновешивает шест. Тележка может двигаться влево или вправо. Эпизод заканчивается, когда полюс падает. Весь смысл состоит в том, чтобы сохранить сбалансированный полюс как можно дольше. Среда спортзала. Но я хотел сделать это без использования этого ярлыка, так как я хочу в конечном итоге сделать свои сложные условия. Я получил его, чтобы бежать, но, похоже, это ничего не изучает. Он собирает максимум 14 очков, каждый раз. Что я делаю не так? < /P>

Код: Выделить всё

import numpy as np
import math
import statistics

# Environment dimensions
SCREEN_WIDTH = 800
SCREEN_HEIGHT = 600

# Cart properties
CART_WIDTH = 100
CART_HEIGHT = 20
cart_x = SCREEN_WIDTH // 2 - CART_WIDTH
cart_y = SCREEN_HEIGHT - 50
cart_speed = 5

# Pole properties
POLE_LENGTH = 100
POLE_ANGLE = math.pi / 4
POLE_ANGULAR_VELOCITY = 0.0
POLE_ANGULAR_ACCELERATION = 0.0
GRAVITY = 0.01

# Game loop flag
running = True

EPISODES = 20000
LEFT = 0
RIGHT = 1
ACTIONS = [LEFT, RIGHT]
EPSILON = 0.9
EPSILON_DECAY = 0.01
MIN_EPSILON = 0.01
LEARNING_RATE = 0.5
DISCOUNT = 0.9

q_table = np.zeros((800, len(ACTIONS)))

def check_game_over(pole_angle):
if abs(pole_angle) > math.pi / 2:
return True
return False

def update_pos(state, action, pole_angular_acceleration, pole_angle, pole_angular_velocity):
if action == 0:
state -= cart_speed
if action == 1:
state += cart_speed

# Constrain cart within screen boundaries
state = max(0, min(state, SCREEN_WIDTH - CART_WIDTH))

# update pole physics
pole_angular_acceleration = GRAVITY * math.sin(pole_angle)
pole_angular_velocity += pole_angular_acceleration
pole_angle += pole_angular_velocity

# apply damping to stabilize the pole
pole_angular_velocity *= 0.99
return state, pole_angle, pole_angular_velocity, pole_angular_acceleration

def choose_action(state, epsilon):
if np.random.uniform() < epsilon:
action = np.argmax(q_table[state])
else:
action = np.random.choice(ACTIONS)
return action

def train():
for e in range(EPISODES):
pole_angular_velocity = POLE_ANGULAR_VELOCITY
pole_angle = POLE_ANGLE
pole_angular_acceleration = POLE_ANGULAR_ACCELERATION
reward = 0
rewards = []
avg_rewards = []
epsilon = EPSILON
state = SCREEN_WIDTH // 2 - CART_WIDTH
while not check_game_over(pole_angle):
# choose action
action = choose_action(state, epsilon)

# update positions
old_pos = q_table[state][action]
next_s, pole_angle, pole_angular_velocity, pole_angular_acceleration = update_pos(state, action, pole_angular_acceleration, pole_angle, pole_angular_velocity)
next_max = max(q_table[int(old_pos)])
new_value = (1 - LEARNING_RATE) * old_pos + LEARNING_RATE * (reward + DISCOUNT * next_max)

q_table[int(old_pos)][action] = new_value

state = next_s

# reward stuff
reward += 1
print(reward)
rewards.append(reward)
epsilon = max(MIN_EPSILON, epsilon * EPSILON_DECAY)

if e % 100 == 0:
avg_rewards.append(statistics.mean(rewards))
print(avg_rewards)

train()

`
Я думал, что проблема не уменьшила epsilon, но это вообще не изменило производительность.

Подробнее здесь: https://stackoverflow.com/questions/794 ... g-anything

1739459050

Anonymous

 Итак, я пытался решить проблему с картерами. Это общая проблема при работе с обучением подкрепления. По сути, у вас есть тележка, которая уравновешивает шест. Тележка может двигаться влево или вправо. Эпизод заканчивается, когда полюс падает. Весь смысл состоит в том, чтобы сохранить сбалансированный полюс как можно дольше. Среда спортзала. Но я хотел сделать это без использования этого ярлыка, так как я хочу в конечном итоге сделать свои сложные условия. Я получил его, чтобы бежать, но, похоже, это ничего не изучает. Он собирает максимум 14 очков, каждый раз. Что я делаю не так? < /P>
[code]import numpy as np
import math
import statistics

# Environment dimensions
SCREEN_WIDTH = 800
SCREEN_HEIGHT = 600

# Cart properties
CART_WIDTH = 100
CART_HEIGHT = 20
cart_x = SCREEN_WIDTH // 2 - CART_WIDTH
cart_y = SCREEN_HEIGHT - 50
cart_speed = 5

# Pole properties
POLE_LENGTH = 100
POLE_ANGLE = math.pi / 4
POLE_ANGULAR_VELOCITY = 0.0
POLE_ANGULAR_ACCELERATION = 0.0
GRAVITY = 0.01

# Game loop flag
running = True

EPISODES = 20000
LEFT = 0
RIGHT = 1
ACTIONS = [LEFT, RIGHT]
EPSILON = 0.9
EPSILON_DECAY = 0.01
MIN_EPSILON = 0.01
LEARNING_RATE = 0.5
DISCOUNT = 0.9

q_table = np.zeros((800, len(ACTIONS)))

def check_game_over(pole_angle):
if abs(pole_angle) > math.pi / 2:
return True
return False

def update_pos(state, action, pole_angular_acceleration, pole_angle, pole_angular_velocity):
if action == 0:
state -= cart_speed
if action == 1:
state += cart_speed

# Constrain cart within screen boundaries
state = max(0, min(state, SCREEN_WIDTH - CART_WIDTH))

# update pole physics
pole_angular_acceleration = GRAVITY * math.sin(pole_angle)
pole_angular_velocity += pole_angular_acceleration
pole_angle += pole_angular_velocity

# apply damping to stabilize the pole
pole_angular_velocity *= 0.99
return state, pole_angle, pole_angular_velocity, pole_angular_acceleration

def choose_action(state, epsilon):
if np.random.uniform() < epsilon:
action = np.argmax(q_table[state])
else:
action = np.random.choice(ACTIONS)
return action

def train():
for e in range(EPISODES):
pole_angular_velocity = POLE_ANGULAR_VELOCITY
pole_angle = POLE_ANGLE
pole_angular_acceleration = POLE_ANGULAR_ACCELERATION
reward = 0
rewards = []
avg_rewards = []
epsilon = EPSILON
state = SCREEN_WIDTH // 2 - CART_WIDTH
while not check_game_over(pole_angle):
# choose action
action = choose_action(state, epsilon)

# update positions
old_pos = q_table[state][action]
next_s, pole_angle, pole_angular_velocity, pole_angular_acceleration = update_pos(state, action, pole_angular_acceleration, pole_angle, pole_angular_velocity)
next_max = max(q_table[int(old_pos)])
new_value = (1 - LEARNING_RATE) * old_pos + LEARNING_RATE * (reward + DISCOUNT * next_max)

q_table[int(old_pos)][action] = new_value

state = next_s

# reward stuff
reward += 1
print(reward)
rewards.append(reward)
epsilon = max(MIN_EPSILON, epsilon * EPSILON_DECAY)

if e % 100 == 0:
avg_rewards.append(statistics.mean(rewards))
print(avg_rewards)

train()
[/code]
`
Я думал, что проблема не уменьшила epsilon, но это вообще не изменило производительность.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79436702/cartpole-with-q-learning-not-learning-anything[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

График вознаграждений Cartpole для обучения DQN

Последнее сообщение Anonymous « 21 сен 2024, 19:52
Добавлено в форуме Python

Anonymous » 21 сен 2024, 19:52 » в форуме Python

Я пытался создать модель DQN для простой игры с тележкой, но после обучения почти 3000 эпизодов она выдает действительно странный график вознаграждений, и я не уверен, правильно ли она вообще тренируется.
Я видел другие сообщения, в которых у людей...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 19:52
Точка появления спортзала Cartpole

Последнее сообщение Anonymous « 29 ноя 2024, 10:16
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 10:16 » в форуме Python

как я могу изменить начальную точку появления тележки при сбросе окружения? Мне нужно использовать собственное вознаграждение при тестировании. Вознаграждение типа:
def new_reward(state, x0):
s = state
theta = state
max_reward = 500
min_reward =...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 10:16
Точка появления спортзала Cartpole

Последнее сообщение Anonymous « 29 ноя 2024, 19:31
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 19:31 » в форуме Python

Как изменить начальную точку появления тележки при сбросе окружения? Мне нужно использовать собственное вознаграждение при тестировании. Вознаграждение типа:
def new_reward(state, x0):
s = state
theta = state
max_reward = 500
min_reward = 0...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 19:31
Реализация PyTorch PPO для Cartpole-v0 застревает в локальной оптиме

Последнее сообщение Anonymous « 05 дек 2024, 12:23
Добавлено в форуме Python

Anonymous » 05 дек 2024, 12:23 » в форуме Python

Я реализовал PPO для среды Cartpole-VO. Однако в определенных итерациях игры это не сходится. Иногда он застревает в локальном оптимуме. Я реализовал алгоритм, используя преимущество TD-0, т.е.
A(s_t) = R(t+1) + \gamma V(S_{t+1}) - V(S_t)
Вот мой...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 12:23
DQN Learning Cartpole Grape

Последнее сообщение Anonymous « 24 июн 2025, 19:24
Добавлено в форуме Python

Anonymous » 24 июн 2025, 19:24 » в форуме Python

Я попытался сделать модель DQN для простой игры Cartpole, но после обучения ее для почти 3000 эпизодов она создает действительно странный график вознаграждения, и я не уверен, что это даже правильно тренироваться. Я посмотрел и пытался решить все...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
24 июн 2025, 19:24

Вернуться в «Python»