Расширенный случайный поиск на основе стабильных базовых показателей останавливает обучение после 2464 миллионов шагов

Расширенный случайный поиск на основе стабильных базовых показателей останавливает обучение после 2464 миллионов шагов ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Расширенный случайный поиск на основе стабильных базовых показателей останавливает обучение после 2464 миллионов шагов

Цитата

Сообщение Anonymous » 03 авг 2024, 18:25

ARS всегда останавливается после 2464 миллионов шагов, несмотря на экспоненциальный рост вознаграждения

Код: Выделить всё

if __name__ == "__main__":

env = CustomEnv()
#check_env(env)
# Simplified architecture
policy_kwargs = dict(
net_arch=[2048,1024, 512, 256,128,2],
activation_fn=torch.nn.GELU,
)

model = ARS(ARSPolicy, env, verbose=0, tensorboard_log=logdir, device='cuda',
policy_kwargs=policy_kwargs,stats_window_size =1000,delta_std=0.07,learning_rate=0.0035,n_eval_episodes=500)

TIMESTEPS = 12288000
#vec_env = model.get_env()
observation,info = env.reset()
done = False

while True:

model.learn(total_timesteps=TIMESTEPS, reset_num_timesteps=False, tb_log_name=f"ARS")

model.save(f"{models_dir}/model_{int(time.time())}")

action, _ = model.predict(observation)

observation, reward, terminated, truncated, info = env.step(action)

Я пытался найти какой-нибудь лимит/раннюю остановку или что-то в библиотеке stablabaselines contrib, но ничего не нашел

Подробнее здесь: https://stackoverflow.com/questions/788 ... after-2-46

1722698743

Anonymous

ARS всегда останавливается после 2464 миллионов шагов, несмотря на экспоненциальный рост вознаграждения
[code]if __name__ == "__main__":

env = CustomEnv()
#check_env(env)
# Simplified architecture
policy_kwargs = dict(
net_arch=[2048,1024, 512, 256,128,2],
activation_fn=torch.nn.GELU,
)

model = ARS(ARSPolicy, env, verbose=0, tensorboard_log=logdir, device='cuda',
policy_kwargs=policy_kwargs,stats_window_size =1000,delta_std=0.07,learning_rate=0.0035,n_eval_episodes=500)

TIMESTEPS = 12288000
#vec_env = model.get_env()
observation,info = env.reset()
done = False

while True:

model.learn(total_timesteps=TIMESTEPS, reset_num_timesteps=False, tb_log_name=f"ARS")

model.save(f"{models_dir}/model_{int(time.time())}")

action, _ = model.predict(observation)

observation, reward, terminated, truncated, info = env.step(action)
[/code]
Я пытался найти какой-нибудь лимит/раннюю остановку или что-то в библиотеке stablabaselines contrib, но ничего не нашел 

Подробнее здесь: [url]https://stackoverflow.com/questions/78829057/agumented-random-search-from-stable-baselines-contrib-stops-trainging-after-2-46[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Создание папки Tensorboard с помощью стабильных базовых показателей не работает

Последнее сообщение Anonymous « 14 янв 2025, 01:00
Добавлено в форуме Python

Anonymous » 14 янв 2025, 01:00 » в форуме Python

В настоящее время я обучаю агентов обучения с подкреплением в гимназии и на стабильных базовых уровнях3. Для отслеживания прогресса обучения я использую тензорную доску, которая работала до сих пор (я скопировал и отредактировал свой рабочий...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 01:00
Обучение экстрактора пользовательских функций в стабильных базовых условиях3. Начиная с предварительно обученных весов?

Последнее сообщение Anonymous « 08 июл 2024, 01:11
Добавлено в форуме Python

Anonymous » 08 июл 2024, 01:11 » в форуме Python

Я использую следующий экстрактор пользовательских функций для своей модели StableBaselines3:
import torch.nn as nn
from stable_baselines3 import PPO

class Encoder(nn.Module):
def __init__(self, input_dim, embedding_dim, hidden_dim, output_dim=2):...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
08 июл 2024, 01:11
Обучение экстрактора пользовательских функций в стабильных базовых условиях3. Начиная с предварительно обученных весов?

Последнее сообщение Anonymous « 17 июл 2024, 16:54
Добавлено в форуме Python

Anonymous » 17 июл 2024, 16:54 » в форуме Python

Я использую следующий экстрактор пользовательских функций для своей модели StableBaselines3:
import torch.nn as nn
from stable_baselines3 import PPO

class Encoder(nn.Module):
def __init__(self, input_dim, embedding_dim, hidden_dim, output_dim=2):...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
17 июл 2024, 16:54
Обучение агента ML с использованием стабильных базовых показателей3, Python и Unity. Продолжайте получать такую же оши

Последнее сообщение Anonymous « 05 фев 2025, 08:46
Добавлено в форуме Python

Anonymous » 05 фев 2025, 08:46 » в форуме Python

В настоящее время я тренируюсь агентом ML, чтобы играть в игру, которую я разрабатываю в Unity. В настоящее время у меня возникают проблемы с преобразованием обученных агентских файлов в формат ONNX, чтобы они могли быть интегрированы с Unity....

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
05 фев 2025, 08:46
Аппроксимация шагов для разброса временных рядов со средним изменением каждые K шагов с использованием BIC

Последнее сообщение Anonymous « 04 янв 2025, 15:14
Добавлено в форуме Python

Anonymous » 04 янв 2025, 15:14 » в форуме Python

Во-первых, используемые синтетические данные генерируются следующим образом:
import sympy as sp
import numpy as np
import matplotlib.pyplot as plt
import random
import math

np.random.seed(2)

n_samples = 180
time = np.arange(n_samples)

mean_value...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 15:14

Вернуться в «Python»