Награда не улучшается для пользовательской среды с использованием PPO

Награда не улучшается для пользовательской среды с использованием PPO ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Награда не улучшается для пользовательской среды с использованием PPO

Цитата

Сообщение Anonymous » 09 дек 2024, 22:11

Я пытался обучить агента в специальной среде, которую я реализовал с помощью тренажерного зала, целью которой было устранение нарушений напряжения в электросети путем регулирования активной мощности (нагрузок) на каждом узле. Я пробовал в основном два алгоритма: стабильные базовые линии3, PPO и DDPG. Однако в обоих случаях я получаю очень плохие результаты (например, вознаграждение со временем уменьшается), и я надеялся, что кто-нибудь поможет мне двигаться в лучшем направлении.
Итак, агент берет наблюдение, которое содержит значения напряжения каждого узла и некоторые другие непрерывные значения, затем выполняет действие, которое представляет собой возможность изменения нагрузки на каждый узел сети (то есть массив с 24 непрерывными значениями), затем выполняется поток мощности для определить новые значения напряжения, а затем на основе этого нового напряжения рассчитывается вознаграждение. ценности.
Я хочу, чтобы мой агент действовал как можно меньше и устранял нарушения за минимальное количество времени. Итак, я структурировал функцию вознаграждения следующим образом:

Если нарушений нет, я даю награду в размере 10, и выпуск завершается
На каждом этапе, если есть нарушения, я налагаю базовый штраф и добавляю дополнительный штраф, пропорциональный величине корректировки.
Если корректировки, внесенные агентом, таковы. крайность, что мой алгоритм потока мощности не сходится и перестает работать, я налагаю штраф в размере -10 и эпизод заканчивается.

Настройка эпизода: Эпизоды начинаются с первоначальных наблюдений, содержащих нарушения. Когда эпизод закончится, следующий эпизод начнется с другого наблюдения с напряжениями (некоторые с нарушениями).
Моя модель PPO имеет следующие параметры:

Код: Выделить всё

model = PPO("MlpPolicy", env, verbose=1, n_steps=256, tensorboard_log="C:\Users\antonio\Downloads\RL", ent_coef=0.01, gamma=0.9)

Я выбрал более низкую гамму, поскольку агенту необходимо быстро расставить приоритеты в устранении нарушений.
Вот метрики для попытки PPO с 10 тысячами шагов:

Для DDPG я использовал значения по умолчанию SB3, и я получил это:

Это это так, извините за длинный пост. В любом случае, какие предложения вы могли бы мне дать?

Подробнее здесь: https://stackoverflow.com/questions/792 ... -using-ppo

1733771503

Anonymous

Я пытался обучить агента в специальной среде, которую я реализовал с помощью тренажерного зала, целью которой было устранение нарушений напряжения в электросети путем регулирования активной мощности (нагрузок) на каждом узле. Я пробовал в основном два алгоритма: стабильные базовые линии3, PPO и DDPG. Однако в обоих случаях я получаю очень плохие результаты (например, вознаграждение со временем уменьшается), и я надеялся, что кто-нибудь поможет мне двигаться в лучшем направлении.
Итак, агент берет наблюдение, которое содержит значения напряжения каждого узла и некоторые другие непрерывные значения, затем выполняет действие, которое представляет собой возможность изменения нагрузки на каждый узел сети (то есть массив с 24 непрерывными значениями), затем выполняется поток мощности для определить новые значения напряжения, а затем на основе этого нового напряжения рассчитывается вознаграждение. ценности.
Я хочу, чтобы мой агент действовал как можно меньше и устранял нарушения за минимальное количество времени. Итак, я структурировал функцию вознаграждения следующим образом:
[list]
[*]Если нарушений нет, я даю награду в размере 10, и выпуск завершается
[*]На каждом этапе, если есть нарушения, я налагаю базовый штраф и добавляю дополнительный штраф, пропорциональный величине корректировки.
[*]Если корректировки, внесенные агентом, таковы. крайность, что мой алгоритм потока мощности не сходится и перестает работать, я налагаю штраф в размере -10 и эпизод заканчивается.
[/list]
Настройка эпизода: Эпизоды начинаются с первоначальных наблюдений, содержащих нарушения. Когда эпизод закончится, следующий эпизод начнется с другого наблюдения с напряжениями (некоторые с нарушениями).
Моя модель PPO имеет следующие параметры:
[code]model = PPO("MlpPolicy", env, verbose=1, n_steps=256, tensorboard_log="C:\Users\antonio\Downloads\RL", ent_coef=0.01, gamma=0.9)
[/code]
Я выбрал более низкую гамму, поскольку агенту необходимо быстро расставить приоритеты в устранении нарушений.
Вот метрики для попытки PPO с 10 тысячами шагов:
[img]https://i.sstatic.net/VnTYKmth.png[/img]

Для DDPG я использовал значения по умолчанию SB3, и я получил это:
[img]https://i.sstatic.net/Jhb7gO2C.png[/img]

Это это так, извините за длинный пост. В любом случае, какие предложения вы могли бы мне дать? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79266195/reward-not-improving-for-a-custom-environment-using-ppo[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Стабильные_базовые линии3: почему награда не соответствует сравнению ep_info_buffer с оценкой?

Последнее сообщение Anonymous « 16 янв 2025, 23:21
Добавлено в форуме Python

Anonymous » 16 янв 2025, 23:21 » в форуме Python

Я работал с библиотекой Stable_baselines3 и обнаружил то, чего не ожидал.
Вот простой код, воспроизводящий проблему:
import gymnasium as gym

from stable_baselines3 import DQN

env = gym.make( CartPole-v1 )

model = DQN( MlpPolicy , env, verbose=0,...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
16 янв 2025, 23:21
Стабильный агент PPO-BASELINES3 не учится в пользовательской среде снаряда (постоянная вознаграждение/действие)

Последнее сообщение Anonymous « 08 июл 2025, 07:41
Добавлено в форуме Python

Anonymous » 08 июл 2025, 07:41 » в форуме Python

Я пытаюсь обучить агента PPO, используя стабильные Baselines3 в простой физике, основанной на животе, построенной с Pymunk. Цель состоит в том, чтобы найти угол запуска, который делает землю снаряда максимально близкой к цели при x = 1400.
Однако...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
08 июл 2025, 07:41
Мой алгоритм Deep Q Learning не улучшается, и я не понимаю, почему

Последнее сообщение Anonymous « 25 май 2024, 03:20
Добавлено в форуме Python

Anonymous » 25 май 2024, 03:20 » в форуме Python

Я разработал алгоритм Q-обучения, который работает хорошо, поэтому я бы попытался использовать алгоритм DeepQ-обучения, чтобы изучить среду CartPole в среде тренажерного зала. Поэтому, основываясь на моем алгоритме Q-обучения, я безуспешно пытался...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
25 май 2024, 03:20
Мой алгоритм Deep Q Learning не улучшается, и я не понимаю, почему

Последнее сообщение Anonymous « 26 май 2024, 14:04
Добавлено в форуме Python

Anonymous » 26 май 2024, 14:04 » в форуме Python

Я разработал алгоритм Q-обучения, который работает хорошо, поэтому я бы попытался использовать алгоритм DeepQ-обучения, чтобы изучить среду CartPole в среде тренажерного зала. Поэтому, основываясь на моем алгоритме Q-обучения, я безуспешно пытался...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
26 май 2024, 14:04
Время отклика локального LLM на виртуальной машине не улучшается после увеличения количества процессоров

Последнее сообщение Anonymous « 04 июл 2024, 11:39
Добавлено в форуме Python

Anonymous » 04 июл 2024, 11:39 » в форуме Python

В настоящее время я использую llama-cpp-python для запуска Mistral-7B-Instruct-v0.3-GGUF на виртуальной машине Azure.
Я протестировал модель Mistral- 7B-Instruct-v0.3.Q4_K_M.gguf и Mistral-7B-Instruct-v0.3.fp16.gguf в виртуальной машине с 32...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 11:39

Вернуться в «Python»