Может ли Рэй приостанавливать/возобновлять задачи в точках синхронизации, когда количество графических процессоров огран

Может ли Рэй приостанавливать/возобновлять задачи в точках синхронизации, когда количество графических процессоров огран ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Может ли Рэй приостанавливать/возобновлять задачи в точках синхронизации, когда количество графических процессоров огран

Цитата

Сообщение Anonymous » 27 дек 2025, 18:32

Я обучаю несколько нейронных сетей параллельно с помощью Ray, где сети должны синхронизироваться в определенных точках во время обучения (а не только по завершении), чтобы обмениваться метаданными и обновлять гиперпараметры на основе коллективных результатов.
Моя настройка:

32 сети должны обучаться параллельно
Доступно только 16 графических процессоров
Сети должны синхронизироваться на указанных границах (например, каждые N шагов обучения)
В точках синхронизации все сети обмениваются метаданными, прежде чем какая-либо из них сможет перейти к следующей граничной точке.

Проблема:
Поведение Рэя по умолчанию ставит задачи в очередь и выполняет их до завершения. Но мне нужно, чтобы Рэй:

Обучал сеть на графическом процессоре до точки синхронизации.
Приостанавливал/передавал графический процессор задаче, поставленной в очередь.
Возобновил работу сети после точки синхронизации.

Вопрос: Может ли Рэй проверять точку и приостанавливать задачи в произвольных точках (не завершение), освобождать ресурсы графического процессора для других задач, а затем возобновлять работу позже? Или Рэй поддерживает только организацию очереди задач, при которой каждая задача выполняется непрерывно до завершения?
Если Рэй не может этого сделать, какие альтернативы существуют для синхронизированного параллельного обучения с ограниченными ресурсами графического процессора?
Кроме того, программы, которые я запускаю, используют JAX для обучения нейронных сетей

Подробнее здесь: https://stackoverflow.com/questions/798 ... re-limited

1766849557

Anonymous

Я обучаю несколько нейронных сетей параллельно с помощью Ray, где сети должны синхронизироваться в определенных точках во время обучения (а не только по завершении), чтобы обмениваться метаданными и обновлять гиперпараметры на основе коллективных результатов.
Моя настройка:
[list]
[*]32 сети должны обучаться параллельно
[*]Доступно только 16 графических процессоров
[*]Сети должны синхронизироваться на указанных границах (например, каждые N шагов обучения)
[*]В точках синхронизации все сети обмениваются метаданными, прежде чем какая-либо из них сможет перейти к следующей граничной точке.
[/list]
Проблема:
Поведение Рэя по умолчанию ставит задачи в очередь и выполняет их до завершения. Но мне нужно, чтобы Рэй:
[list]
[*]Обучал сеть на графическом процессоре до точки синхронизации.
[*]Приостанавливал/передавал графический процессор задаче, поставленной в очередь.
[*]Возобновил работу сети после точки синхронизации.
[/list]
Вопрос: Может ли Рэй проверять точку и приостанавливать задачи в произвольных точках (не завершение), освобождать ресурсы графического процессора для других задач, а затем возобновлять работу позже? Или Рэй поддерживает только организацию очереди задач, при которой каждая задача выполняется непрерывно до завершения?
Если Рэй не может этого сделать, какие альтернативы существуют для синхронизированного параллельного обучения с ограниченными ресурсами графического процессора?
Кроме того, программы, которые я запускаю, используют JAX для обучения нейронных сетей 

Подробнее здесь: [url]https://stackoverflow.com/questions/79854400/can-ray-pause-resume-tasks-at-synchronization-points-when-gpus-are-limited[/url]