Как выполнить обратное распространение ошибки в PyTorch при обучении AlphaZero? - Цифровое Кемерово

Как выполнить обратное распространение ошибки в PyTorch при обучении AlphaZero? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как выполнить обратное распространение ошибки в PyTorch при обучении AlphaZero?

Цитата

Сообщение Anonymous » 18 окт 2024, 10:12

Я пытаюсь реализовать свою версию AlphaZero для Connect Four. Я реализовал сверточную сеть с помощью PyTorch и могу получать (случайные) значения и выходные данные политики из модели для заданных состояний платы. Теперь я хотел бы смоделировать некоторые игры и обучить модель с их помощью. Однако я столкнулся с проблемой:
Насколько я понимаю, обучение состоит в основном из двух этапов: шаг, на котором используется самостоятельная игра для сбора игровых данных, и после этого шаг, на котором собранные данные используются для обучайте модель с помощью обратного распространения ошибки.
На этапе самостоятельной игры сеть используется для получения оценки позиции и политики выбора следующего шага. Затем эта политика улучшается с использованием версии алгоритма MCTS.
После окончания игры все ходы и результат сохраняются.
Для простоты предположим, что я играю только в одну игру, а потом хочу обновить модель. Если я сохраню политики MCTS и сетевые политики, теперь я смогу рассчитать потери. Но я не могу выполнить обратное распространение по модели, поскольку прямой проход произошел на этапе сбора данных. Теоретически я мог бы снова передать ту же позицию через модель, но это звучит не только неэффективно, но, поскольку в моей архитектуре используются выпадающие слои, я даже не получу тех же результатов.
Так как же мне решить эту проблему в PyTorch? Могу ли я как-то сохранить модель вместе с конфигурацией отсева, которая использовалась для создания политики? Тогда я мог бы хотя бы просто снова перенаправить позицию и потом использовать обратное распространение, даже если это было бы неэффективно.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -alphazero

Реклама

1729235531

Anonymous

Я пытаюсь реализовать свою версию AlphaZero для Connect Four. Я реализовал сверточную сеть с помощью PyTorch и могу получать (случайные) значения и выходные данные политики из модели для заданных состояний платы. Теперь я хотел бы смоделировать некоторые игры и обучить модель с их помощью. Однако я столкнулся с проблемой:
Насколько я понимаю, обучение состоит в основном из двух этапов: шаг, на котором используется самостоятельная игра для сбора игровых данных, и после этого шаг, на котором собранные данные используются для обучайте модель с помощью обратного распространения ошибки.
На этапе самостоятельной игры сеть используется для получения оценки позиции и политики выбора следующего шага. Затем эта политика улучшается с использованием версии алгоритма MCTS.
После окончания игры все ходы и результат сохраняются.
Для простоты предположим, что я играю только в одну игру, а потом хочу обновить модель. Если я сохраню политики MCTS и сетевые политики, теперь я смогу рассчитать потери. Но я не могу выполнить обратное распространение по модели, поскольку прямой проход произошел на этапе сбора данных. Теоретически я мог бы снова передать ту же позицию через модель, но это звучит не только неэффективно, но, поскольку в моей архитектуре используются выпадающие слои, я даже не получу тех же результатов.
Так как же мне решить эту проблему в PyTorch? Могу ли я как-то сохранить модель вместе с конфигурацией отсева, которая использовалась для создания политики? Тогда я мог бы хотя бы просто снова перенаправить позицию и потом использовать обратное распространение, даже если это было бы неэффективно. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79097867/how-to-do-backpropagation-in-pytorch-when-training-alphazero[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как выполнить обратное распространение ошибки в PyTorch при обучении AlphaZero?

Последнее сообщение Anonymous « 17 окт 2024, 14:31
Добавлено в форуме Python

Anonymous » 17 окт 2024, 14:31 » в форуме Python

Я пытаюсь реализовать свою версию AlphaZero для Connect Four. Я реализовал сверточную сеть с помощью PyTorch и могу получать (случайные) значения и выходные данные политики из модели для заданных состояний платы. Теперь я хотел бы смоделировать...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 14:31
Как выполнить обратное распространение ошибки в PyTorch при обучении AlphaZero?

Последнее сообщение Anonymous « 18 окт 2024, 12:22
Добавлено в форуме Python

Anonymous » 18 окт 2024, 12:22 » в форуме Python

Я пытаюсь реализовать свою версию AlphaZero для Connect Four. Я реализовал сверточную сеть с помощью PyTorch и могу получать (случайные) значения и выходные данные политики из модели для заданных состояний платы. Теперь я хотел бы смоделировать...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 12:22
Влияют ли дополненные строки (фальшивые входные данные) на обратное распространение ошибки?

Последнее сообщение Anonymous « 04 мар 2024, 10:48
Добавлено в форуме Python

Anonymous » 04 мар 2024, 10:48 » в форуме Python

Each row data doesn't have the same size. It looks like this:

Ideally, the shape of input data will be: (batch_size, N, dim)

But each row in the batch is not equal dimension. E.g: it can be (k, dim) k (batch_size, dim) . But I don't want to...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
04 мар 2024, 10:48
Обратное распространение будет передано в -nan на всех обучающих примерах.

Последнее сообщение Anonymous « 18 сен 2024, 07:04
Добавлено в форуме C++

Anonymous » 18 сен 2024, 07:04 » в форуме C++

Я работаю над написанием своей первой нейронной сети. Это персептрон с (потенциально) несколькими скрытыми слоями. В настоящее время он настроен на 3 уровня, и эта конфигурация находится в main.cpp. Я запускаю несколько обучающих примеров в...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 07:04
Графический процессор вне запоминания при обучении в Pytorch

Последнее сообщение Anonymous « 27 июн 2025, 13:45
Добавлено в форуме Python

Anonymous » 27 июн 2025, 13:45 » в форуме Python

Я пытаюсь обучать данные для моей модели AI/ML и выпустил CUDA из -за проблемы с памятью:
Любое решение было бы большой помощью
torch.cuda.OutOfMemoryError: CUDA out of memory.

Tried to allocate 3.52 GB. GPU 0 has a total capacity of 11.75 GB of...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
27 июн 2025, 13:45

Вернуться в «Python»

Programmiererforum