Невозможно добиться такой же хорошей производительности PPO с помощью MAPPO.

Невозможно добиться такой же хорошей производительности PPO с помощью MAPPO. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Невозможно добиться такой же хорошей производительности PPO с помощью MAPPO.

Цитата

Сообщение Anonymous » 19 окт 2024, 23:29

У меня есть многоагентная среда для сбора боидов с использованием Gymnasium. Я использовал PPO с политикой Mlp и 8-уровневой сетью по 512 нейронов на слой.
Хотя я добился группирования, это была централизованная настройка.
Результаты >:
Флокирование (централизованный PPO)
Сеть:
policy_kwargs = dict(
activation_fn=th.nn.Tanh, # Using ReLU activation function
net_arch=[dict(pi=[512, 512, 512, 512, 512, 512, 512, 512],
vf=[512, 512, 512, 512, 512, 512, 512, 512])] # Separate networks for policy (pi) and value function (vf)
)

Код обучения:
model = PPO("MlpPolicy", env, kwargs=policy_kwargs tensorboard_log="./ppo_Agents_tensorboard/", verbose=1, device=device)
model.set_random_seed(SimulationVariables["ModelSeed"])

Однако моя цель — создать его децентрализованную версию По сути, это MAPPO (PPO с децентрализованными участниками, но общим критиком, который, по утверждениям, вместо этого хорош для группового поведения). IPPO – полностью децентрализовано). Вот почему я построил сеть настраиваемых политик с помощью SB3 следующим образом:
class CustomMultiAgentPolicy(ActorCriticPolicy): # Make sure to inherit from the correct parent class
def __init__(self, observation_space, action_space, lr_schedule, **kwargs):
super(CustomMultiAgentPolicy, self).__init__(observation_space, action_space, lr_schedule, **kwargs)

self.obs_size = observation_space.shape[0] #just this according to your observation structure
self.hidden_size = 128 # You can change this based on your needs
self.action_space = action_space

self.actor = CustomActor(observation_space, action_space)
self.critic = SharedCritic(observation_space)

def forward(self, obs, **kwargs):
action_mean = self.actor(obs) # This is the mean of the normal distribution

# Create a normal distribution with mean and log_std (converted to std)
# action_std = th.exp(self.log_std) # Convert log_std to std
action_std = th.clamp(th.exp(self.log_std), min=1e-3, max=1.0) # Stabilize std

action_distribution = th.distributions.Normal(action_mean, action_std)

# Sample actions and get log probabilities
actions = action_distribution.sample()
log_probs = action_distribution.log_prob(actions).sum(dim=-1) # Sum over action dimensions

values = self.critic(obs)

# Ensure actions match the expected shape for the environment (in your case, [1, 6])
return actions, values, log_probs

Независимый актер и общий критик:
class CustomActor(th.nn.Module):
def __init__(self, observation_space, action_space):
super(CustomActor, self).__init__()
self.device = th.device("cuda" if th.cuda.is_available() else "cpu")

# Create 8 layers with 512 neurons each
self.layers = th.nn.ModuleList()
input_size = observation_space.shape[0]

for _ in range(8):
layer = th.nn.Linear(input_size, 512).to(self.device) # Move layer to the device
self.layers.append(layer)
input_size = 512 # Update input size for the next layer

# Update action head based on action space type
if isinstance(action_space, spaces.Box): # Continuous action space
self.action_head = th.nn.Linear(512, action_space.shape[0]).to(self.device)
elif isinstance(action_space, spaces.Discrete): # Discrete action space
self.action_head = th.nn.Linear(512, action_space.n).to(self.device)
else:
raise NotImplementedError("Action space type not supported")

def forward(self, x):
# Convert input to torch tensor if it's a numpy array and move it to the correct device
if isinstance(x, np.ndarray):
x = th.tensor(x, dtype=th.float32).to(self.device) # Move to device here

# Pass the input through the network layers
for layer in self.layers:
# print(f"layer weight device: {layer.weight.device}") # Print inside the loop
x = F.relu(layer(x)) # All layers should already be on self.device

# Get action logits from the action head
action_logits = self.action_head(x) # action_head should also be on the same device

return action_logits

class SharedCritic(th.nn.Module):
def __init__(self, observation_space):
super(SharedCritic, self).__init__()

# Create 8 layers with 512 neurons each
self.layers = th.nn.ModuleList()
input_size = observation_space.shape[0]

for _ in range(8):
self.layers.append(th.nn.Linear(input_size, 512)) # Move to device in forward method if needed
input_size = 512 # Update input size for the next layer

self.value_head = th.nn.Linear(512, 1)

def forward(self, x):
# Convert input to torch tensor if it's a numpy array
if isinstance(x, np.ndarray):
x = th.tensor(x, dtype=th.float32)

for layer in self.layers:
x = F.relu(layer(x))
value = self.value_head(x)
return value

Мои результаты, несмотря на то, что абсолютно ничего не изменилось, кроме сети, составляют 180 от того, что должно быть (пробовал с таким же количеством временных шагов, но и с меньшим).
Результаты (MAPPO) Они движутся в совершенно разных направлениях, несмотря на то, что моя функция вознаграждения не изменилась.
Функция вознаграждения:
CohesionReward = 0
AlignmentReward = 0
total_reward = 0
outofflock = False
midpoint = (SimulationVariables["SafetyRadius"] + SimulationVariables["NeighborhoodRadius"]) / 2

if len(neighbor_positions) > 0:
for neighbor_position in neighbor_positions:
distance = np.linalg.norm(agent.position - neighbor_position)

if distance

Подробнее здесь: https://stackoverflow.com/questions/791 ... with-mappo

1729369784

Anonymous

У меня есть многоагентная среда для сбора боидов с использованием Gymnasium. Я использовал PPO с политикой Mlp и 8-уровневой сетью по 512 нейронов на слой.
Хотя я добился группирования, это была централизованная настройка.
[b]Результаты[/b] >:
Флокирование (централизованный PPO)
[b]Сеть[/b]:
policy_kwargs = dict(
activation_fn=th.nn.Tanh,  # Using ReLU activation function
net_arch=[dict(pi=[512, 512, 512, 512, 512, 512, 512, 512],
vf=[512, 512, 512, 512, 512, 512, 512, 512])]  # Separate networks for policy (pi) and value function (vf)
)

[b]Код обучения[/b]:
model = PPO("MlpPolicy", env, kwargs=policy_kwargs tensorboard_log="./ppo_Agents_tensorboard/", verbose=1, device=device)
model.set_random_seed(SimulationVariables["ModelSeed"])

[b]Однако моя цель — создать его децентрализованную версию[/b] По сути, это MAPPO (PPO с децентрализованными участниками, но общим критиком, который, по утверждениям, вместо этого хорош для группового поведения). IPPO – полностью децентрализовано).  Вот почему я построил сеть настраиваемых политик с помощью SB3 следующим образом:
class CustomMultiAgentPolicy(ActorCriticPolicy):  # Make sure to inherit from the correct parent class
def __init__(self, observation_space, action_space, lr_schedule, **kwargs):
super(CustomMultiAgentPolicy, self).__init__(observation_space, action_space, lr_schedule, **kwargs)

self.obs_size = observation_space.shape[0] #just this according to your observation structure
self.hidden_size = 128  # You can change this based on your needs
self.action_space = action_space

self.actor = CustomActor(observation_space, action_space)
self.critic = SharedCritic(observation_space)

def forward(self, obs, **kwargs):
action_mean = self.actor(obs)  # This is the mean of the normal distribution

# Create a normal distribution with mean and log_std (converted to std)
# action_std = th.exp(self.log_std)  # Convert log_std to std
action_std = th.clamp(th.exp(self.log_std), min=1e-3, max=1.0)  # Stabilize std

action_distribution = th.distributions.Normal(action_mean, action_std)

# Sample actions and get log probabilities
actions = action_distribution.sample()
log_probs = action_distribution.log_prob(actions).sum(dim=-1)  # Sum over action dimensions

values = self.critic(obs)

# Ensure actions match the expected shape for the environment (in your case, [1, 6])
return actions, values, log_probs

Независимый актер и общий критик:
class CustomActor(th.nn.Module):
def __init__(self, observation_space, action_space):
super(CustomActor, self).__init__()
self.device = th.device("cuda"  if th.cuda.is_available() else "cpu")

# Create 8 layers with 512 neurons each
self.layers = th.nn.ModuleList()
input_size = observation_space.shape[0]

for _ in range(8):
layer = th.nn.Linear(input_size, 512).to(self.device)  # Move layer to the device
self.layers.append(layer)
input_size = 512  # Update input size for the next layer

# Update action head based on action space type
if isinstance(action_space, spaces.Box):  # Continuous action space
self.action_head = th.nn.Linear(512, action_space.shape[0]).to(self.device)
elif isinstance(action_space, spaces.Discrete):  # Discrete action space
self.action_head = th.nn.Linear(512, action_space.n).to(self.device)
else:
raise NotImplementedError("Action space type not supported")

def forward(self, x):
# Convert input to torch tensor if it's a numpy array and move it to the correct device
if isinstance(x, np.ndarray):
x = th.tensor(x, dtype=th.float32).to(self.device)  # Move to device here

# Pass the input through the network layers
for layer in self.layers:
# print(f"layer weight device: {layer.weight.device}")  # Print inside the loop
x = F.relu(layer(x))  # All layers should already be on self.device

# Get action logits from the action head
action_logits = self.action_head(x)  # action_head should also be on the same device

return action_logits

class SharedCritic(th.nn.Module):
def __init__(self, observation_space):
super(SharedCritic, self).__init__()

# Create 8 layers with 512 neurons each
self.layers = th.nn.ModuleList()
input_size = observation_space.shape[0]

for _ in range(8):
self.layers.append(th.nn.Linear(input_size, 512))  # Move to device in forward method if needed
input_size = 512  # Update input size for the next layer

self.value_head = th.nn.Linear(512, 1)

def forward(self, x):
# Convert input to torch tensor if it's a numpy array
if isinstance(x, np.ndarray):
x = th.tensor(x, dtype=th.float32)

for layer in self.layers:
x = F.relu(layer(x))
value = self.value_head(x)
return value

Мои результаты, несмотря на то, что абсолютно ничего не изменилось, кроме сети, составляют 180 от того, что должно быть (пробовал с таким же количеством временных шагов, но и с меньшим).
Результаты (MAPPO) Они движутся в совершенно разных направлениях, несмотря на то, что моя функция вознаграждения не изменилась.
[b]Функция вознаграждения[/b]:
CohesionReward = 0
AlignmentReward = 0
total_reward = 0
outofflock = False
midpoint = (SimulationVariables["SafetyRadius"] + SimulationVariables["NeighborhoodRadius"]) / 2

if len(neighbor_positions) > 0:
for neighbor_position in neighbor_positions:
distance = np.linalg.norm(agent.position - neighbor_position)

if distance 

Подробнее здесь: [url]https://stackoverflow.com/questions/79105876/unable-to-achieve-as-good-ppo-performance-with-mappo[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как отображать/блаженное текст в Pygame для хорошей производительности

Последнее сообщение Anonymous « 12 июл 2025, 04:04
Добавлено в форуме Python

Anonymous » 12 июл 2025, 04:04 » в форуме Python

Я работаю над небольшой игрой (в качестве хобби), используя Pygame. До этого я никогда не работал над графическими интерфейсами и сталкиваюсь с некоторыми проблемами с производительностью. Даже в меню «Параметры» FPS, кажется, ограничен около 110,...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
12 июл 2025, 04:04
Я хочу отображать продукты без изображений в конце списков категорий. Как мы можем добиться такой сортировки с помощью л

Последнее сообщение Anonymous « 18 сен 2024, 17:21
Добавлено в форуме Php

Anonymous » 18 сен 2024, 17:21 » в форуме Php

На странице списка категорий magento 2.4.x. Я хочу переместить все продукты, у которых НЕТ ИЗОБРАЖЕНИЙ в конце ИЛИ, можно сказать, на последней странице. Какова наилучшая практика Magento 2 для достижения этой настройки? Нужно ли нам создавать для...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 17:21
Я хочу отображать продукты без изображений в конце списков категорий. Как мы можем добиться такой сортировки с помощью л

Последнее сообщение Anonymous « 19 сен 2024, 12:06
Добавлено в форуме Php

Anonymous » 19 сен 2024, 12:06 » в форуме Php

На странице списка категорий magento 2.4.x. Я хочу переместить все продукты, у которых НЕТ ИЗОБРАЖЕНИЙ в конце ИЛИ, можно сказать, на последней странице. Какова наилучшая практика Magento 2 для достижения этой настройки? Нужно ли нам создавать для...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
19 сен 2024, 12:06
Я хочу отображать продукты без изображений в конце списков категорий. Как мы можем добиться такой сортировки с помощью л

Последнее сообщение Anonymous « 30 сен 2024, 16:15
Добавлено в форуме Php

Anonymous » 30 сен 2024, 16:15 » в форуме Php

На странице списка категорий magento 2.4.x. Я хочу переместить все продукты, у которых НЕТ ИЗОБРАЖЕНИЙ в конце ИЛИ, можно сказать, на последней странице. Какова наилучшая практика Magento 2 для достижения этой настройки? Нужно ли нам создавать для...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
30 сен 2024, 16:15
Как добиться такой анимации?

Последнее сообщение Гость « 29 фев 2024, 09:33
Добавлено в форуме CSS

Гость » 29 фев 2024, 09:33 » в форуме CSS

введите здесь описание изображения

Я только что добился эффекта круговой диффузии，Что мне нужно сделать, чтобы добиться эффекта, как на картинке? Надеюсь, вы, ребята, сможете меня научить. Большое спасибо. Я не очень хорошо разбираюсь в...

0 Ответы

29 Просмотры

Последнее сообщение Гость
29 фев 2024, 09:33

Вернуться в «Python»