Проблема: torch.distributed.barrier() завис. Как это решить?Python

Программы на Python
Ответить
Anonymous
 Проблема: torch.distributed.barrier() завис. Как это решить?

Сообщение Anonymous »

Я пытаюсь использовать DistributedDataParallel и написал для него код. Однако я столкнулся с проблемой, когда процессы останавливаются, когда я использую torch.distributed.barrier() после init_process_group().
Ниже приведен фрагмент кода. в вопросе:

Код: Выделить всё

dist.init_process_group(backend="nccl",
world_size=opts.world_size,
rank=opts.local_rank)
Интересно, что когда я меняю серверную часть с «nccl» на «gloo», код работает без проблем, но я предпочитаю использовать «nccl»< /code>.
Вот версии, с которыми я работаю:

Код: Выделить всё

Python: 3.8.14
PyTorch: 2.2.0
CUDA: 12.1
Я также проверил журналы NCCL (с помощью экспорта NCCL_DEBUG=INFO), но не смог выявить никаких проблем..

Подробнее здесь: https://stackoverflow.com/questions/771 ... o-solve-it
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»