Мой алгоритм Deep Q Learning не улучшается, и я не понимаю, почему

Мой алгоритм Deep Q Learning не улучшается, и я не понимаю, почему ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Мой алгоритм Deep Q Learning не улучшается, и я не понимаю, почему

Цитата

Сообщение Anonymous » 26 май 2024, 14:04

Я разработал алгоритм Q-обучения, который работает хорошо, поэтому я бы попытался использовать алгоритм DeepQ-обучения, чтобы изучить среду CartPole в среде тренажерного зала. Поэтому, основываясь на моем алгоритме Q-обучения, я безуспешно пытался развить его на алгоритме обучения DeepQ в течение 2-3 дней.
Моя проблема в том, что я просто не понимаю, почему это не работает:

Это потому, что я допустил глупую ошибку?
Это потому, что моя модель не сходится, потому что я обновляю ее на каждом шагу?
Это потому, что я не использую правильные гиперпараметры (эпсилон, альфа)?

Я здесь потому что сам не нашел ответа ^^
Чтобы решить мои проблемы:

[*]Попробуйте множество способов уменьшения значения эпсилона, чтобы сбалансировать исследование-эксплуатацию моей жадной политики эпсилон (также попробуйте исправить значение эпсилона)

[*]Попробуйте несколько вариантов параметры скорости обучения для моей нейронной сети (от 0,1 до 0,0001)

[*]Попробуйте найти глупую ошибку (очень надеюсь, что это не так, лол)< /p>

[*]Попробуйте другой тип оптимизатора (Адам, SGD)

Я действительно хочу настоять на том, чтобы найти в Интернете алгоритм обучения DeepQ, который решает эту проблему, но они использовали пакетное обновление, я действительно хочу понять, почему мой алгоритм не улучшается.
Я кстати, используйте Pytorch для нейронной сети.
Буду признателен за идею, почему это не работает !!!
Спасибо за чтение и вот мой код

Нейронная сеть:

Код: Выделить всё

class Neural_Network(nn.Module):
def __init__(self,lr=0.1,input_dims=2,fc1_dims=512,fc2_dims=512,output_dims=3):
super().__init__()

self.lr=lr

self.input_dims=input_dims
self.fc1_dims=fc1_dims
self.fc2_dims=fc2_dims
self.output_dims=output_dims

self.fc1=nn.Linear(input_dims,fc1_dims)
self.fc2=nn.Linear(fc1_dims,fc2_dims)
self.fc3=nn.Linear(fc2_dims,output_dims)

return

def forward(self,x):
x = T.tensor(x,dtype=T.float)

x = F.relu( self.fc1(x) )
x = F.relu( self.fc2(x) )
x = self.fc3(x)

return x

Код агента:

Код: Выделить всё

class Agent_DeepQ:
def __init__(self,lr=0.01, states_dims=2,nbr_actions=3):
self.gamma = 0.99
self.epsilon = 1

self.NN = Neural_Network(lr=lr, input_dims= states_dims, output_dims = nbr_actions)

self.input_dims = states_dims
self.nbr_actions = nbr_actions
self.lr = lr

return

def choose_greedy_action(self,state):
Q_Values = self.NN(state).detach()

a=np.argmax(Q_Values)

return a

def choose_epsilon_action(self,state):

#epsilon policy
if np.random.rand()= 100 ):
moving_average.append( np.mean(reward_history[-100:] ))

x=np.arange(100,len(moving_average)+100)
plt.plot(x,moving_average)
plt.show()

return agent

Скользящее среднее значение для 100 последних эпизодов, в которых мы видим, что вознаграждение не улучшается

Подробнее здесь: https://stackoverflow.com/questions/785 ... rstand-why

1716721449

Anonymous

Я разработал алгоритм Q-обучения, который работает хорошо, поэтому я бы попытался использовать алгоритм DeepQ-обучения, чтобы изучить среду CartPole в среде тренажерного зала.  Поэтому, основываясь на моем алгоритме Q-обучения, я безуспешно пытался развить его на алгоритме обучения DeepQ в течение 2-3 дней.
Моя проблема в том, что я просто не понимаю, почему это не работает:
[list]
[*]Это потому, что я допустил глупую ошибку?
[*]Это потому, что моя модель не сходится, потому что я обновляю ее на каждом шагу?
[*]Это потому, что я не использую правильные гиперпараметры (эпсилон, альфа)?
[/list]
Я здесь потому что сам не нашел ответа ^^
Чтобы решить мои проблемы:

[*]Попробуйте множество способов уменьшения значения эпсилона, чтобы сбалансировать исследование-эксплуатацию моей жадной политики эпсилон (также попробуйте исправить значение эпсилона)

[*]Попробуйте несколько вариантов параметры скорости обучения для моей нейронной сети (от 0,1 до 0,0001)

[*]Попробуйте найти глупую ошибку (очень надеюсь, что это не так, лол)< /p>

[*]Попробуйте другой тип оптимизатора (Адам, SGD)


Я действительно хочу настоять на том, чтобы найти в Интернете алгоритм обучения DeepQ, который решает эту проблему, но они использовали пакетное обновление, я действительно хочу понять, почему мой алгоритм не улучшается.
Я кстати, используйте Pytorch для нейронной сети.
Буду признателен за идею, почему это не работает !!!
Спасибо за чтение и вот мой код :)
Нейронная сеть:
[code]class Neural_Network(nn.Module):
def __init__(self,lr=0.1,input_dims=2,fc1_dims=512,fc2_dims=512,output_dims=3):
super().__init__()

self.lr=lr

self.input_dims=input_dims
self.fc1_dims=fc1_dims
self.fc2_dims=fc2_dims
self.output_dims=output_dims

self.fc1=nn.Linear(input_dims,fc1_dims)
self.fc2=nn.Linear(fc1_dims,fc2_dims)
self.fc3=nn.Linear(fc2_dims,output_dims)

return

def forward(self,x):
x = T.tensor(x,dtype=T.float)

x = F.relu( self.fc1(x) )
x = F.relu( self.fc2(x) )
x = self.fc3(x)

return x
[/code]
Код агента:
[code]class Agent_DeepQ:
def __init__(self,lr=0.01, states_dims=2,nbr_actions=3):
self.gamma = 0.99
self.epsilon = 1

self.NN = Neural_Network(lr=lr, input_dims= states_dims, output_dims = nbr_actions)

self.input_dims = states_dims
self.nbr_actions = nbr_actions
self.lr = lr

return

def choose_greedy_action(self,state):
Q_Values = self.NN(state).detach()

a=np.argmax(Q_Values)

return a

def choose_epsilon_action(self,state):

#epsilon policy
if np.random.rand()= 100 ):
moving_average.append( np.mean(reward_history[-100:] ))

x=np.arange(100,len(moving_average)+100)
plt.plot(x,moving_average)
plt.show()

return agent
[/code]
Скользящее среднее значение для 100 последних эпизодов, в которых мы видим, что вознаграждение не улучшается  

Подробнее здесь: [url]https://stackoverflow.com/questions/78530527/my-deepq-learning-algo-dont-improve-and-i-dont-understand-why[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Мой алгоритм Deep Q Learning не улучшается, и я не понимаю, почему

Последнее сообщение Anonymous « 25 май 2024, 03:20
Добавлено в форуме Python

Anonymous » 25 май 2024, 03:20 » в форуме Python

Я разработал алгоритм Q-обучения, который работает хорошо, поэтому я бы попытался использовать алгоритм DeepQ-обучения, чтобы изучить среду CartPole в среде тренажерного зала. Поэтому, основываясь на моем алгоритме Q-обучения, я безуспешно пытался...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
25 май 2024, 03:20
Разработка системы распознавания изображений Deep Learning с использованием предварительно обученных моделей

Последнее сообщение Anonymous « 27 окт 2024, 01:11
Добавлено в форуме Python

Anonymous » 27 окт 2024, 01:11 » в форуме Python

Я хочу использовать предварительно обученные модели, такие как Xception, VGG16, ResNet50 и т. д., для своего проекта по распознаванию изображений глубокого обучения, чтобы быстро обучить модель на обучающем наборе с высокой точностью. У меня...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
27 окт 2024, 01:11
Время отклика локального LLM на виртуальной машине не улучшается после увеличения количества процессоров

Последнее сообщение Anonymous « 04 июл 2024, 11:39
Добавлено в форуме Python

Anonymous » 04 июл 2024, 11:39 » в форуме Python

В настоящее время я использую llama-cpp-python для запуска Mistral-7B-Instruct-v0.3-GGUF на виртуальной машине Azure.
Я протестировал модель Mistral- 7B-Instruct-v0.3.Q4_K_M.gguf и Mistral-7B-Instruct-v0.3.fp16.gguf в виртуальной машине с 32...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 11:39
Награда не улучшается для пользовательской среды с использованием PPO

Последнее сообщение Anonymous « 09 дек 2024, 22:11
Добавлено в форуме Python

Anonymous » 09 дек 2024, 22:11 » в форуме Python

Я пытался обучить агента в специальной среде, которую я реализовал с помощью тренажерного зала, целью которой было устранение нарушений напряжения в электросети путем регулирования активной мощности (нагрузок) на каждом узле. Я пробовал в основном...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
09 дек 2024, 22:11
Сеть не улучшается с помощью PyTorch CNN для расширенного набора данных MNIST

Последнее сообщение Anonymous « 29 дек 2024, 12:30
Добавлено в форуме Python

Anonymous » 29 дек 2024, 12:30 » в форуме Python

Я весь день искал, почему ситуация не улучшается, потери остаются на уровне 4,1 после первых двух партий. Я новичок в PyTorch. Заранее благодарим за любую помощь!
Вот набор данных

key =...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
29 дек 2024, 12:30

Вернуться в «Python»