Я пытался создать модель DQN для простой игры с тележкой, но после обучения почти 3000 эпизодов она выдает действительно странный график вознаграждений, и я не уверен, правильно ли она вообще тренируется.
Я видел другие сообщения, в которых у людей не было целевой сети, они не дожидались обучения модели, пока у них не было достаточного предыдущего опыта и других проблем. Я посмотрел и попытался решить все эти проблемы, и вот что у меня получилось.
[img]https://i.sstatic .net/yrf9HAW0.png[/img]
Я пробовал экспериментировать с гиперпараметрами (даже копируя параметры из стабильных базовых линий3), но результат все равно делает то же самое.
Если это нормально, то тренировка кажется слишком медленной, что мне нужно сделать, чтобы тренировка прошла быстрее? Увеличение скорости network_sync, уменьшение эпсилон-распада или что-то еще. Я действительно не уверен.
Я пытался создать модель DQN для простой игры с тележкой, но после обучения почти 3000 эпизодов она выдает действительно странный график вознаграждений, и я не уверен, правильно ли она вообще тренируется. Я видел другие сообщения, в которых у людей не было целевой сети, они не дожидались обучения модели, пока у них не было достаточного предыдущего опыта и других проблем. Я посмотрел и попытался решить все эти проблемы, и вот что у меня получилось. [img]https://i.sstatic .net/yrf9HAW0.png[/img]
Вот код: [code]dqn.py: import torch from torch import nn import torch.nn.functional as F
class DQN(nn.Module): def __init__(self, state_dim, action_dim, hidden_dim=256): super(DQN, self).__init__()
if args.train: dql.run(is_training=True) else: dql.run(is_training=False, render=True) [/code] [code]hyperparameters.yml: cartpole1: env_id: CartPole-v1 replay_memory_size: 100000 mini_batch_size: 32 epsilon_init: 1 epsilon_decay: 0.9995 epsilon_min: 0.05 network_sync_rate: 10 lr: 0.001 discount_factor_g: 0.99 stop_on_reward: 100000 hidden_layers: 10 enable_double_dqn: True [/code] Я пробовал экспериментировать с гиперпараметрами (даже копируя параметры из стабильных базовых линий3), но результат все равно делает то же самое. Если это нормально, то тренировка кажется слишком медленной, что мне нужно сделать, чтобы тренировка прошла быстрее? Увеличение скорости network_sync, уменьшение эпсилон-распада или что-то еще. Я действительно не уверен.
Я попытался сделать модель DQN для простой игры Cartpole, но после обучения ее для почти 3000 эпизодов она создает действительно странный график вознаграждения, и я не уверен, что это даже правильно тренироваться. Я посмотрел и пытался решить все...
В настоящее время я пытаюсь использовать библиотеку имитаций для созданной мной политики.
Я настроил свою среду с помощью Gymnasium и загружаю свою политику
И я получаю следующую ошибку:
(DPS) (база) julian@m15-R7:~/Desktop/Shallow_Lake_Problem$...
В настоящее время я пытаюсь использовать библиотеку имитаций для созданной мной политики.
Я настроил свою среду с помощью Gymnasium и загружаю свою политику. >
И я получаю следующую ошибку:
(DPS) (base) julian@m15-R7:~/Desktop/Shallow_Lake_Problem$...
Я хочу изменить архитектуру, используемую в этом коде, с Q-learning на DQN, сохранив при этом общий стиль и формат кода, который включает функции создания лабиринта и виджеты. Проще говоря, я хочу создать код планирования пути для этого кода...
Я создаваю модель Seedencetransformer ('All-Minilm-L6-V2'), используя словарь (JSON) с названием Category_Descriptions в качестве набора данных.
Ниже приведен Структура данных Category_descriptions :
{
CategoryA : {
CategorySearch : Description...