SB3 для имитационного обучения. Как провести демонстрационную акцию в данном государстве? - Цифровое Кемерово

SB3 для имитационного обучения. Как провести демонстрационную акцию в данном государстве? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

SB3 для имитационного обучения. Как провести демонстрационную акцию в данном государстве?

Цитата

Сообщение Anonymous » 09 дек 2024, 22:24

Я пытаюсь обучить агента RL, используя SB3 (алгоритм PPO), Gymnasium и PyTorch.
Поскольку динамика среды довольно сложна, у меня есть набор данных, содержащий около 200 траекторий, которые я могу использовать в качестве демонстрации. Моя идея состоит в том, чтобы использовать их во время обучения, чтобы каждые n эпизодов проводилась демонстрация. Когда это происходит, я заставляю метод сброса среды выполнять выборку из набора данных. Однако мне трудно заставить эксперта выполнить действие, которое, как я знаю, должно быть выполнено.
Более или менее, я думаю, что нашел точку, в которой мне следует это реализовать. Следующий метод реализован в классе ActorCriticPolicy(BasePolicy) файла policy.py в SB3.

Код: Выделить всё

def forward(self, obs: th.Tensor, deterministic: bool = False) -> Tuple[th.Tensor, th.Tensor, th.Tensor]:
"""
Forward pass in all the networks (actor and critic)

:param obs: Observation
:param deterministic: Whether to sample or use deterministic actions
:return: action, value and log probability of the action
"""
# Preprocess the observation if needed
features = self.extract_features(obs)
if self.share_features_extractor:
latent_pi, latent_vf = self.mlp_extractor(features)
else:
pi_features, vf_features = features
latent_pi = self.mlp_extractor.forward_actor(pi_features)
latent_vf = self.mlp_extractor.forward_critic(vf_features)
# Evaluate the values for the given observations
values = self.value_net(latent_vf)
distribution = self._get_action_dist_from_latent(latent_pi)
actions = distribution.get_actions(deterministic=deterministic)
log_prob = distribution.log_prob(actions)
actions = actions.reshape((-1, *self.action_space.shape))  # type: ignore[misc]
return actions, values, log_prob

Думаю, мне нужно применить такую логику, чтобы, если я запускаю демонстрацию, действия и log_prob должны быть переопределены. Можно было бы получить доступ к переменным среды, где у меня есть переменная класса, которая сохраняет действие, которое должно быть выполнено следующим (при запуске демонстрации).
Я знаю о библиотеке имитации, однако я думаю, что То, что я хочу сделать, в нем недоступно.
Есть ли способ сделать это?

Подробнее здесь: https://stackoverflow.com/questions/792 ... iven-state

Реклама

1733772298

Anonymous

Я пытаюсь обучить агента RL, используя SB3 (алгоритм PPO), Gymnasium и PyTorch.
Поскольку динамика среды довольно сложна, у меня есть набор данных, содержащий около 200 траекторий, которые я могу использовать в качестве демонстрации. Моя идея состоит в том, чтобы использовать их во время обучения, чтобы каждые n эпизодов проводилась демонстрация. Когда это происходит, я заставляю метод сброса среды выполнять выборку из набора данных. Однако мне трудно заставить эксперта выполнить действие, которое, как я знаю, должно быть выполнено.
Более или менее, я думаю, что нашел точку, в которой мне следует это реализовать. Следующий метод реализован в классе ActorCriticPolicy(BasePolicy) файла policy.py в SB3.
[code]def forward(self, obs: th.Tensor, deterministic: bool = False) -> Tuple[th.Tensor, th.Tensor, th.Tensor]:
"""
Forward pass in all the networks (actor and critic)

:param obs: Observation
:param deterministic: Whether to sample or use deterministic actions
:return: action, value and log probability of the action
"""
# Preprocess the observation if needed
features = self.extract_features(obs)
if self.share_features_extractor:
latent_pi, latent_vf = self.mlp_extractor(features)
else:
pi_features, vf_features = features
latent_pi = self.mlp_extractor.forward_actor(pi_features)
latent_vf = self.mlp_extractor.forward_critic(vf_features)
# Evaluate the values for the given observations
values = self.value_net(latent_vf)
distribution = self._get_action_dist_from_latent(latent_pi)
actions = distribution.get_actions(deterministic=deterministic)
log_prob = distribution.log_prob(actions)
actions = actions.reshape((-1, *self.action_space.shape))  # type: ignore[misc]
return actions, values, log_prob
[/code]
Думаю, мне нужно применить такую логику, чтобы, если я запускаю демонстрацию, действия и log_prob должны быть переопределены. Можно было бы получить доступ к переменным среды, где у меня есть переменная класса, которая сохраняет действие, которое должно быть выполнено следующим (при запуске демонстрации).
Я знаю о библиотеке имитации, однако я думаю, что То, что я хочу сделать, в нем недоступно.
Есть ли способ сделать это? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79264351/sb3-for-imitation-learning-how-to-force-demonstration-action-at-given-state[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Максимальная прибыль, покупая и продавая акцию ровно k раз

Последнее сообщение Anonymous « 24 июн 2025, 01:16
Добавлено в форуме Python

Anonymous » 24 июн 2025, 01:16 » в форуме Python

Стоимость облигации на каждый день приведена по ценам массива of n , и мне нужно найти максимальную прибыль, которую я могу получить, покупая и продавая в ровно k транзакции (покупка и продажа, в этом порядке. Не в тот же день. Но я могу продавать,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
24 июн 2025, 01:16
Как создать карту горизонтального смахивания, провести пальцем правой кнопкой мыши, удалить карту и провести картой лево

Последнее сообщение Anonymous « 06 май 2024, 08:27
Добавлено в форуме IOS

Anonymous » 06 май 2024, 08:27 » в форуме IOS

Я хочу сделать интерфейс, как в этом видео. как это сделать? У меня есть все компоненты, созданные в ячейке табличного представления. укажите код.
Как создать карту горизонтального пролистывания, удалить карту с помощью правого смахивания и добавить...

0 Ответы

86 Просмотры

Последнее сообщение Anonymous
06 май 2024, 08:27
Заголовки трассировки Spring Cloud Stream для SB3 закодированы в Base64, что делает его несовместимым с SB2.

Последнее сообщение Anonymous « 29 июл 2024, 22:57
Добавлено в форуме JAVA

Anonymous » 29 июл 2024, 22:57 » в форуме JAVA

При использовании микрометра с Spring Boot 3 и Sleuth с Spring Boot 2 мы можем сделать эти две версии совместимыми для отслеживания. Мы можем настроить совместное использование форматов b3 и w3c. Он работает нормально, но есть один вариант...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
29 июл 2024, 22:57
Модель Recurrentppo от SB3-контриба всегда дает мне потерю градиента политики и объясняет дисперсию близко к 0

Последнее сообщение Anonymous « 24 июн 2025, 19:31
Добавлено в форуме Python

Anonymous » 24 июн 2025, 19:31 » в форуме Python

Я работаю над обучением агента RPPO для обработки системы управления температурой. Вот какой -то фрагмент кода.
class TempControlSeqEnv(gym.Env):
def __init__(self, curriculum_phase, time_steps=5):
super(TempControlSeqEnv, self).__init__()...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
24 июн 2025, 19:31
Ошибка обучения модели более быстрого предварительного обучения RCNN

Последнее сообщение Anonymous « 03 янв 2024, 06:21
Добавлено в форуме Python

Anonymous » 03 янв 2024, 06:21 » в форуме Python

Тензорный поток: 2.10.1 Питон 3.10.0

Предварительно обученная модель: faster_rcnn_inception_resnet_v2_640x640_coco17_tpu-8

При запуске кода

TRAINING_SCRIPT = os.path.join(paths , 'research', 'object_detection', 'model_main_tf2.py') команда =...

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 06:21

Вернуться в «Python»

Programmiererforum