Я пытаюсь использовать DistributedDataParallel и написал для него код. Однако я столкнулся с проблемой, когда процессы останавливаются, когда я использую torch.distributed.barrier() после init_process_group().
Ниже приведен фрагмент кода. в вопросе:
Код: Выделить всё
dist.init_process_group(backend="nccl",
world_size=opts.world_size,
rank=opts.local_rank)
Интересно, что когда я меняю серверную часть с «nccl» на «gloo», код работает без проблем, но я предпочитаю использовать «nccl»< /code>.
Вот версии, с которыми я работаю:
Я также проверил журналы NCCL (с помощью экспорта NCCL_DEBUG=INFO), но не смог выявить никаких проблем..
Подробнее здесь:
https://stackoverflow.com/questions/771 ... o-solve-it