observation, reward, terminated, truncated, info = env.step(action) [/code] Я пытался найти какой-нибудь лимит/раннюю остановку или что-то в библиотеке stablabaselines contrib, но ничего не нашел
В настоящее время я обучаю агентов обучения с подкреплением в гимназии и на стабильных базовых уровнях3. Для отслеживания прогресса обучения я использую тензорную доску, которая работала до сих пор (я скопировал и отредактировал свой рабочий...
В настоящее время я тренируюсь агентом ML, чтобы играть в игру, которую я разрабатываю в Unity. В настоящее время у меня возникают проблемы с преобразованием обученных агентских файлов в формат ONNX, чтобы они могли быть интегрированы с Unity....
Во-первых, используемые синтетические данные генерируются следующим образом:
import sympy as sp
import numpy as np
import matplotlib.pyplot as plt
import random
import math