Как обучить моего агента в области подкрепления Q-таблица, чтобы собрать большее количество вознаграждений в таблице 10x

Как обучить моего агента в области подкрепления Q-таблица, чтобы собрать большее количество вознаграждений в таблице 10x ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как обучить моего агента в области подкрепления Q-таблица, чтобы собрать большее количество вознаграждений в таблице 10x

Цитата

Сообщение Anonymous » 01 май 2025, 02:57

import numpy as np
import random
from tqdm import tqdm

# Mapa de recompensas
original_rewards = np.array([
[ 0, 0, 30, 0, 20, 0, 0, 0, 0, 0],
[ 0, -10, 0, 0, 0, 0, -10, 0, 0, 10],
[ 0, 0, 0, -10, 0, 0, 0, 0, -10, 0],
[ 0, 20, 0, 30, 0, -10, 0, 0, 0, 0],
[ 0, 0, 0, 0, 0, 0, 0, -10, 0, 0],
[ 0, 0, -10, 0, 0, 30, 0, 0, 30, 0],
[ 0, 0, 0, -10, 0, 0, 0, 0, 0, 0],
[ 0, -10, 0, 0, 0, 0, 0, -10, 0, 0],
[ 0, 0, 0, -10, 0, 0, 0, 0, 0, 0],
[ 50, 0, 0, 0, 0, -10, 0, 0, 0, 0],
])

# Parâmetros
n_rows, n_cols = original_rewards.shape
n_states = n_rows * n_cols
n_actions = 4 # cima, baixo, esquerda, direita

# Hiperparâmetros
alpha = 0.1 # taxa de aprendizado
gamma = 0.95 # fator de desconto
epsilon = 0.1 # política epsilon-greedy
episodes = 200000
max_steps = 10

# Inicializa Q-table
Q = np.zeros((n_states, n_actions))

# Mapeamento de ações
actions = {
0: (-1, 0), # cima
1: ( 1, 0), # baixo
2: ( 0, -1), # esquerda
3: ( 0, 1), # direita
}

# Funções auxiliares
def state_to_index(row, col):
return row * n_cols + col

def index_to_state(index):
return divmod(index, n_cols)

def step(row, col, action):
dr, dc = actions[action]
new_row = min(max(row + dr, 0), n_rows - 1)
new_col = min(max(col + dc, 0), n_cols - 1)
return new_row, new_col

# Treinamento
for episode in tqdm(range(episodes), desc="Treinamento"):
row, col = random.randint(0, n_rows-1), random.randint(0, n_cols-1)

# Recompensas consumíveis (resetadas por episódio)
rewards = original_rewards.copy()

for step_num in range(max_steps):
state = state_to_index(row, col)

# Política epsilon-greedy
if random.uniform(0, 1) < epsilon:
action = random.randint(0, n_actions - 1)
else:
action = np.argmax(Q[state])

# Executa ação
next_row, next_col = step(row, col, action)
next_state = state_to_index(next_row, next_col)

# Coleta recompensa atual e zera para simular "consumo"
reward = rewards[next_row, next_col]
rewards[next_row, next_col] = 0

# Atualização Q-learning
best_next_q = np.max(Q[next_state])
Q[state, action] += alpha * (reward + gamma * best_next_q - Q[state, action])

# Avança para o próximo estado
row, col = next_row, next_col
#

Após treinamento, testamos o melhor caminho a partir de (0,0)
test_row, test_col = 0, 0
total_reward = 0

print("Melhor caminho em 10 passos a partir de (0,0):")
rewards = original_rewards.copy()

for _ in range(10):
state = state_to_index(test_row, test_col)
action = np.argmax(Q[state])
test_row, test_col = step(test_row, test_col, action)
r = rewards[test_row, test_col]
rewards[test_row, test_col] = 0 # consome a recompensa
total_reward += r
print(f" -> ({test_row},{test_col}) Recompensa: {r}")

print(f"\nRecompensa total: {total_reward}")

print(f"\nRecompensa total: {total_reward}")
< /code>
Я действительно не знаю, что еще делать. Я не знаю. Помогите!>

Подробнее здесь: https://stackoverflow.com/questions/796 ... er-of-rewa

1746057421

Anonymous

import numpy as np
import random
from tqdm import tqdm

# Mapa de recompensas
original_rewards = np.array([
[  0,   0,  30,   0,  20,   0,   0,   0,   0,   0],
[  0, -10,   0,   0,   0,   0, -10,   0,   0,  10],
[  0,   0,   0, -10,   0,   0,   0,   0, -10,   0],
[  0,  20,   0,  30,   0, -10,   0,   0,   0,   0],
[  0,   0,   0,   0,   0,   0,   0, -10,   0,   0],
[  0,   0, -10,   0,   0,  30,   0,   0,  30,   0],
[  0,   0,   0, -10,   0,   0,   0,   0,   0,   0],
[  0, -10,   0,   0,   0,   0,   0, -10,   0,   0],
[  0,   0,   0, -10,   0,   0,   0,   0,   0,   0],
[ 50,   0,   0,   0,   0, -10,   0,   0,   0,   0],
])

# Parâmetros
n_rows, n_cols = original_rewards.shape
n_states = n_rows * n_cols
n_actions = 4  # cima, baixo, esquerda, direita

# Hiperparâmetros
alpha = 0.1      # taxa de aprendizado
gamma = 0.95     # fator de desconto
epsilon = 0.1    # política epsilon-greedy
episodes = 200000
max_steps = 10

# Inicializa Q-table
Q = np.zeros((n_states, n_actions))

# Mapeamento de ações
actions = {
0: (-1,  0),  # cima
1: ( 1,  0),  # baixo
2: ( 0, -1),  # esquerda
3: ( 0,  1),  # direita
}

# Funções auxiliares
def state_to_index(row, col):
return row * n_cols + col

def index_to_state(index):
return divmod(index, n_cols)

def step(row, col, action):
dr, dc = actions[action]
new_row = min(max(row + dr, 0), n_rows - 1)
new_col = min(max(col + dc, 0), n_cols - 1)
return new_row, new_col

# Treinamento
for episode in tqdm(range(episodes), desc="Treinamento"):
row, col = random.randint(0, n_rows-1), random.randint(0, n_cols-1)

# Recompensas consumíveis (resetadas por episódio)
rewards = original_rewards.copy()

for step_num in range(max_steps):
state = state_to_index(row, col)

# Política epsilon-greedy
if random.uniform(0, 1) < epsilon:
action = random.randint(0, n_actions - 1)
else:
action = np.argmax(Q[state])

# Executa ação
next_row, next_col = step(row, col, action)
next_state = state_to_index(next_row, next_col)

# Coleta recompensa atual e zera para simular "consumo"
reward = rewards[next_row, next_col]
rewards[next_row, next_col] = 0

# Atualização Q-learning
best_next_q = np.max(Q[next_state])
Q[state, action] += alpha * (reward + gamma * best_next_q - Q[state, action])

# Avança para o próximo estado
row, col = next_row, next_col
# ✅ Após treinamento, testamos o melhor caminho a partir de (0,0)
test_row, test_col = 0, 0
total_reward = 0

print("Melhor caminho em 10 passos a partir de (0,0):")
rewards = original_rewards.copy()

for _ in range(10):
state = state_to_index(test_row, test_col)
action = np.argmax(Q[state])
test_row, test_col = step(test_row, test_col, action)
r = rewards[test_row, test_col]
rewards[test_row, test_col] = 0  # consome a recompensa
total_reward += r
print(f" -> ({test_row},{test_col}) Recompensa: {r}")

print(f"\nRecompensa total: {total_reward}")

print(f"\nRecompensa total: {total_reward}")
< /code>
Я действительно не знаю, что еще делать. Я не знаю. Помогите!> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79601165/how-to-train-my-agent-in-q-table-reinforcement-to-collect-greater-number-of-rewa[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Unity AddTorque влияет на большее количество осей, чем должно

Последнее сообщение Anonymous « 03 дек 2024, 22:34
Добавлено в форуме C#

Anonymous » 03 дек 2024, 22:34 » в форуме C#

Я пробовал решить эту проблему вверх тормашками и как могу, но все равно не могу разобраться. У меня есть куб с коробчатым коллайдером, к которому я прикрепил Rigidbody и Configuration Joint, чтобы ограничить вращение X до -75/75 и вращение Z до...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
03 дек 2024, 22:34
Исправление колебаний, точных ошибок и большее количество алгоритма управления скоростью. Мой подход правильный?

Последнее сообщение Anonymous « 06 фев 2025, 17:21
Добавлено в форуме Python

Anonymous » 06 фев 2025, 17:21 » в форуме Python

Проблема:
Я хочу, чтобы моя «Следующая система координат (FCS)» достигла положения «установленной системы координат (SCS)», сохраняя при этом профиль трапециевидной скорости с использованием заданных параметров как ограниченная скорость и...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
06 фев 2025, 17:21
Исправление колебаний, точных ошибок и большее количество алгоритма управления скоростью. Мой подход правильный?

Последнее сообщение Anonymous « 10 фев 2025, 01:22
Добавлено в форуме Python

Anonymous » 10 фев 2025, 01:22 » в форуме Python

Проблема:
Я хочу, чтобы моя «Следующая система координат (FCS)» достигла положения «установленной системы координат (SCS)», сохраняя при этом профиль трапециевидной скорости с использованием заданных параметров как ограниченная скорость и...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
10 фев 2025, 01:22
Laravel 10x: как получить доступ к переменной env внутри необработанного HTML?

Последнее сообщение Гость « 22 сен 2023, 19:49
Добавлено в форуме Php

Гость » 22 сен 2023, 19:49 » в форуме Php

У меня есть блэйд-страница, на которой отображается HTML-содержимое, полученное из моей базы данных:

{!! $htmlContent !!} Этот код очень хорошо отображает HTML.

Но внутри этой переменной я использую такой блейд-код:

{{ assets(
Проблема в...

0 Ответы

18 Просмотры

Последнее сообщение Гость
22 сен 2023, 19:49
Laravel 10x: как получить доступ к переменной env внутри необработанного HTML? [дубликат]

Последнее сообщение Гость « 22 сен 2023, 20:05
Добавлено в форуме Php

Гость » 22 сен 2023, 20:05 » в форуме Php

У меня есть блэйд-страница, на которой отображается HTML-содержимое, полученное из моей базы данных:

{!! $htmlContent !!} Этот код очень хорошо отображает HTML.

Но внутри этой переменной я использую такой блейд-код:

{{ assets(
Проблема в...

0 Ответы

23 Просмотры

Последнее сообщение Гость
22 сен 2023, 20:05

Вернуться в «Python»