Я хочу провести двухточечную связь между рангом 1 и рангом 2, но произойдет следующая ошибка. Однако я уже убедился, что в моем коде все ранги могут взаимодействовать с рангом 0. Кроме того, структура топологии моих графических процессоров представляет собой полностью связную структуру с четырьмя графическими процессорами, и не существует ситуации, когда они не могут быть физически связаны. . мой pytorch 2.0
RuntimeError: [2] is setting up NCCL communicator and retrieving ncclUniqueId from [0] via c10d key-value store by key '1:2', but store->get('1:2') got error: Connection reset by peer
Exception raised from recvBytes at /home/whyin/pnp_new/PNP/torch/csrc/distributed/c10d/Utils.hpp:616 (most recent call first)
Я хочу создать группу общения, но считаю, что общение таким способом пока невозможно. Я надеюсь добиться прямой связи между двумя рангами, не проходя через ранг 0.
world_size = 4 # GPU数目 print(torch.__file__) pp, pk, cs = load("/home/whyin/data/9-data/") domain= Radix2EvaluationDomain.new(cs.circuit_bound()) spawn(runTpoly, args=(world_size,pp,cs,pk.arithmetics_evals,pk.selectors_evals,domain), nprocs=world_size, join=True) [/code] Я хочу провести двухточечную связь между рангом 1 и рангом 2, но произойдет следующая ошибка. Однако я уже убедился, что в моем коде все ранги могут взаимодействовать с рангом 0. Кроме того, структура топологии моих графических процессоров представляет собой полностью связную структуру с четырьмя графическими процессорами, и не существует ситуации, когда они не могут быть физически связаны. . мой pytorch 2.0 [img]https://i.sstatic.net/oTuubLwA.png[/img]
[code]RuntimeError: [2] is setting up NCCL communicator and retrieving ncclUniqueId from [0] via c10d key-value store by key '1:2', but store->get('1:2') got error: Connection reset by peer Exception raised from recvBytes at /home/whyin/pnp_new/PNP/torch/csrc/distributed/c10d/Utils.hpp:616 (most recent call first) [/code] Я хочу создать группу общения, но считаю, что общение таким способом пока невозможно. Я надеюсь добиться прямой связи между двумя рангами, не проходя через ранг 0.