Пользовательская сеть и политика в Stable-Baselines3

Пользовательская сеть и политика в Stable-Baselines3 ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Пользовательская сеть и политика в Stable-Baselines3

Цитата

Сообщение Anonymous » 18 окт 2024, 02:50

Я пытаюсь создать небольшой рабочий пример того, как использовать пространства действий MultiDiscrete вместе с пространством наблюдения Box. Одна из проблем, с которой я столкнулся, заключается в том, что измерение, возвращаемое при использовании обычной политики, не соответствует измерениям Box. Базовая политика возвращает что-то размером 25, тогда как мне нужно что-то размером (5,5).
Я попытался облегчить эту проблему, создав собственную «политику» (на самом деле сетевую ), где на последнем этапе я изменил форму вывода до (5,5), а не до 25. Это привело к множеству проблем. Я попытался прочитать документацию о том, как создавать собственные политики; однако я не могу найти проблему хоть убей.

[*]Я пытался использовать policy_kwargs; однако я не знаю, как написать, что NN следует изменить.

[*]Я пытался использовать BaseFeaturesExtractor, но безуспешно. а также.

[*]Различные комбинации 1 и 2.

Я включил некоторые сообщения об ошибках, которые я получаю при различных попытках. Кто-нибудь знает, чего мне не хватает? Это что-то совершенно фундаментальное, что я неправильно понял?
import numpy as np
import gym
import torch.nn as nn
import torch as th
from stable_baselines3 import PPO
from stable_baselines3.common.torch_layers import BaseFeaturesExtractor # don't know if this is necessary

# -------- Attempt using BaseFeaturesExtractor
# class CustomPolicy(BaseFeaturesExtractor): # Don't know if BaseFeaturesExtractor is correct
# def __init__(self, observation_space, action_space, features_dim: int = 25): # Features should perhaps be (5,5)
# super().__init__(observation_space, features_dim)
# --------

# Define a custom neural network architecture
class CustomPolicy():
def __init__(self, observation_space, action_space):
super().__init__()
# Define the layers of the neural network

self.fc1 = nn.Linear(observation_space.shape[0], 64)
self.fc2 = nn.Linear(64, 64)
self.fc3 = nn.Linear(64, action_space.shape[0])

# Reshape the output to match the Box observation space shape

def forward(self, x):
x = nn.functional.relu(self.fc1(x))
x = nn.functional.relu(self.fc2(x))
x = self.fc3(x)
x = th.reshape(x, (5, 5))
return x

# Define the grid world environment
class GridWorldEnv(gym.Env):
def __init__(self):
self.observation_space = gym.spaces.Box(low=0, high=1, shape=(5, 5), dtype=np.float32)
self.action_space = gym.spaces.MultiDiscrete([5, 3]) # 5 movement directions, 3 movement distances

self.state = np.zeros((5, 5))
self.state[0, 0] = 1 # Start location
self.goal = (4, 4) # Goal location
self.steps = 0
self.state.flatten()

def reset(self):
self.state = np.zeros((5, 5))
self.state[0, 0] = 1 # Start location
self.goal = (4, 4) # Goal location
self.steps = 0
return self.state.flatten()

def step(self, action):
direction, distance = action
reward = -1
done = False

# Calculate the movement offset based on the selected direction and distance
if direction == 0:
offset = (distance, 0)
elif direction == 1:
offset = (-distance, 0)
elif direction == 2:
offset = (0, distance)
elif direction == 3:
offset = (0, -distance)
else:
offset = (0, 0)

# Calculate the new position based on the current position and movement offset
current_pos = np.argwhere(self.state == 1)[0]
new_pos = tuple(np.clip(current_pos + np.array(offset), 0, 4))

# Update the state with the new position
self.state[current_pos] = 0
self.state[new_pos] = 1

# Check if the agent has reached the goal
if np.argmax(self.state) == np.ravel_multi_index(self.goal, self.state.shape):
reward = 10
done = True

# Increment step count and check if episode should end
self.steps += 1
if self.steps >= 50:
done = True

return self.state, reward, done, {}

# Press the green button in the gutter to run the script.
if __name__ == '__main__':
# Create an environment with the CustomEnv environment
env = GridWorldEnv()

# Create policy
policy = CustomPolicy(env.observation_space, env.action_space)

# Create a PPO agent with the CustomPolicy
model = PPO(policy=policy, env=env, verbose=1)
# --------- TypeError: 'CustomPolicy' object is not callable

# --------- Attempt at using policy_kwargs
# policy_kwargs = dict(activation_fn=th.nn.ReLU,
# net_arch=dict(pi=[32, 32], vf=[32, 32]))
# model = PPO("MlpPolicy", env=env, verbose=1, policy_kwargs=policy_kwargs)
# --------- ValueError: could not broadcast input array from shape (25,) into shape (5,5)

# --------- Attempt at using policy_kwargs with custom policy
# policy_kwargs = dict(
# features_extractor_class=CustomPolicy,
# features_extractor_kwargs=dict(features_dim=25), # should perhaps be (5,5)
# )
# model = PPO(policy=policy, env=env, verbose=1, policy_kwargs=policy_kwargs)
# --------- TypeError: CustomPolicy.forward() got an unexpected keyword argument 'use_sde'

# Train the agent for 1000 steps
model.learn(total_timesteps=1000)

Подробнее здесь: https://stackoverflow.com/questions/754 ... baselines3

1729209023

Anonymous

Я пытаюсь создать небольшой рабочий пример того, как использовать пространства действий MultiDiscrete вместе с пространством наблюдения Box. Одна из проблем, с которой я столкнулся, заключается в том, что измерение, возвращаемое при использовании обычной политики, не соответствует измерениям Box. Базовая политика возвращает что-то размером 25, тогда как мне нужно что-то размером (5,5).
Я попытался облегчить эту проблему, создав собственную «политику» (на самом деле сетевую ), где на последнем этапе я изменил форму вывода до (5,5), а не до 25. Это привело к множеству проблем. Я попытался прочитать документацию о том, как создавать собственные политики; однако я не могу найти проблему хоть убей.

[*]Я пытался использовать policy_kwargs; однако я не знаю, как написать, что NN следует изменить.

[*]Я пытался использовать BaseFeaturesExtractor, но безуспешно. а также.

[*]Различные комбинации 1 и 2.


Я включил некоторые сообщения об ошибках, которые я получаю при различных попытках.  Кто-нибудь знает, чего мне не хватает? Это что-то совершенно фундаментальное, что я неправильно понял?
import numpy as np
import gym
import torch.nn as nn
import torch as th
from stable_baselines3 import PPO
from stable_baselines3.common.torch_layers import BaseFeaturesExtractor  # don't know if this is necessary

# -------- Attempt using BaseFeaturesExtractor
# class CustomPolicy(BaseFeaturesExtractor):  # Don't know if BaseFeaturesExtractor is correct
#    def __init__(self, observation_space, action_space, features_dim: int = 25):  # Features should perhaps be (5,5)
#        super().__init__(observation_space, features_dim)
# --------

# Define a custom neural network architecture
class CustomPolicy():
def __init__(self, observation_space, action_space):
super().__init__()
# Define the layers of the neural network

self.fc1 = nn.Linear(observation_space.shape[0], 64)
self.fc2 = nn.Linear(64, 64)
self.fc3 = nn.Linear(64, action_space.shape[0])

# Reshape the output to match the Box observation space shape

def forward(self, x):
x = nn.functional.relu(self.fc1(x))
x = nn.functional.relu(self.fc2(x))
x = self.fc3(x)
x = th.reshape(x, (5, 5))
return x

# Define the grid world environment
class GridWorldEnv(gym.Env):
def __init__(self):
self.observation_space = gym.spaces.Box(low=0, high=1, shape=(5, 5), dtype=np.float32)
self.action_space = gym.spaces.MultiDiscrete([5, 3])  # 5 movement directions, 3 movement distances

self.state = np.zeros((5, 5))
self.state[0, 0] = 1  # Start location
self.goal = (4, 4)  # Goal location
self.steps = 0
self.state.flatten()

def reset(self):
self.state = np.zeros((5, 5))
self.state[0, 0] = 1  # Start location
self.goal = (4, 4)  # Goal location
self.steps = 0
return self.state.flatten()

def step(self, action):
direction, distance = action
reward = -1
done = False

# Calculate the movement offset based on the selected direction and distance
if direction == 0:
offset = (distance, 0)
elif direction == 1:
offset = (-distance, 0)
elif direction == 2:
offset = (0, distance)
elif direction == 3:
offset = (0, -distance)
else:
offset = (0, 0)

# Calculate the new position based on the current position and movement offset
current_pos = np.argwhere(self.state == 1)[0]
new_pos = tuple(np.clip(current_pos + np.array(offset), 0, 4))

# Update the state with the new position
self.state[current_pos] = 0
self.state[new_pos] = 1

# Check if the agent has reached the goal
if np.argmax(self.state) == np.ravel_multi_index(self.goal, self.state.shape):
reward = 10
done = True

# Increment step count and check if episode should end
self.steps += 1
if self.steps >= 50:
done = True

return self.state, reward, done, {}

# Press the green button in the gutter to run the script.
if __name__ == '__main__':
# Create an environment with the CustomEnv environment
env = GridWorldEnv()

# Create policy
policy = CustomPolicy(env.observation_space, env.action_space)

# Create a PPO agent with the CustomPolicy
model = PPO(policy=policy, env=env, verbose=1)
# --------- TypeError: 'CustomPolicy' object is not callable

# --------- Attempt at using policy_kwargs
# policy_kwargs = dict(activation_fn=th.nn.ReLU,
#                      net_arch=dict(pi=[32, 32], vf=[32, 32]))
# model = PPO("MlpPolicy", env=env, verbose=1, policy_kwargs=policy_kwargs)
# --------- ValueError: could not broadcast input array from shape (25,) into shape (5,5)

# --------- Attempt at using policy_kwargs with custom policy
# policy_kwargs = dict(
#    features_extractor_class=CustomPolicy,
#    features_extractor_kwargs=dict(features_dim=25), # should perhaps be (5,5)
# )
# model = PPO(policy=policy, env=env, verbose=1, policy_kwargs=policy_kwargs)
# --------- TypeError:  CustomPolicy.forward() got an unexpected keyword argument 'use_sde'

# Train the agent for 1000 steps
model.learn(total_timesteps=1000)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/75470473/custom-network-and-policy-in-stable-baselines3[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Меня смущают «Политика макета» MDSpans, «Картирование макета» и «Политика картирования макета»

Последнее сообщение Anonymous « 10 авг 2025, 11:57
Добавлено в форуме C++

Anonymous » 10 авг 2025, 11:57 » в форуме C++

Я смотрю на недавно введенный шаблон класса std :: mdspan (также описанный здесь на SO). Один из параметров шаблона, согласно CPPReerference:

layoutpolicy - определяет, как преобразовать многомерный индекс в основной 1D индекс (Column -Major 3D...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
10 авг 2025, 11:57
Стабильный агент PPO-BASELINES3 не учится в пользовательской среде снаряда (постоянная вознаграждение/действие)

Последнее сообщение Anonymous « 08 июл 2025, 07:41
Добавлено в форуме Python

Anonymous » 08 июл 2025, 07:41 » в форуме Python

Я пытаюсь обучить агента PPO, используя стабильные Baselines3 в простой физике, основанной на животе, построенной с Pymunk. Цель состоит в том, чтобы найти угол запуска, который делает землю снаряда максимально близкой к цели при x = 1400.
Однако...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
08 июл 2025, 07:41
Checkov — пользовательская политика Python для Terraform не работает

Последнее сообщение Anonymous « 04 июл 2024, 04:12
Добавлено в форуме Python

Anonymous » 04 июл 2024, 04:12 » в форуме Python

У меня есть следующий код Terraform:
import logging

from checkov.common.models.enums import CheckResult
from checkov.terraform.checks.resource.base_resource_value_check import \
BaseResourceValueCheck

def get_resource_message(conf):
dataset_id =...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 04:12
Пользовательская политика retryPolicy драйвера Cassandra Python не перехватывает ReadFailure

Последнее сообщение Anonymous « 14 янв 2025, 09:00
Добавлено в форуме Python

Anonymous » 14 янв 2025, 09:00 » в форуме Python

Я создал специальную политику retryPolicy для реализации отсрочки для моего кластера Keyspaces.
Это работает для таймаутов чтения, у меня есть журналы с повтором on_read_timeout. Но он не повторяет попытку ReadFailure, и, насколько я понимаю, он...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 09:00
Тестовые контейнеры и пользовательская сеть, Кафка недоступна

Последнее сообщение Anonymous « 08 дек 2024, 08:32
Добавлено в форуме JAVA

Anonymous » 08 дек 2024, 08:32 » в форуме JAVA

У меня есть следующий фрагмент кода для создания контейнера Kafka с использованием тестовых контейнеров
private GenericContainer createKafkaContainer() {
try (GenericContainer kafkaContainer = new GenericContainer(DockerImageName.parse(...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
08 дек 2024, 08:32

Вернуться в «Python»