PyTorch, распространяемый из двух экземпляров ec2, зависаетPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 PyTorch, распространяемый из двух экземпляров ec2, зависает

Сообщение Anonymous »

Код: Выделить всё

# env_vars.sh on rank 0 machine
#!/bin/bash

export MASTER_PORT=23456
export MASTER_ADDR=... # same as below, private ip of machine 0
export WORLD_SIZE=2
export GLOO_SOCKET_IFNAME=enX0
export RANK=0

# env_vars.sh on rank 1 machine

#!/bin/bash
export MASTER_PORT=23456
export MASTER_ADDR=... # same as above
export WORLD_SIZE=2
export GLOO_SOCKET_IFNAME=enX0
export RANK=1

# on rank 0 machine
$ ifconfig
enX0: flags=4163  mtu 9001
inet ...  netmask 255.255.240.0  broadcast ...
inet6 ...  prefixlen 64  scopeid 0x20
ether ...  txqueuelen 1000  (Ethernet)
RX packets 543929  bytes 577263126 (550.5 MiB)
RX errors 0  dropped 0  overruns 0  frame 0
TX packets 203942  bytes 21681067 (20.6 MiB)
TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73  mtu 65536
inet 127.0.0.1  netmask 255.0.0.0
inet6 ::1  prefixlen 128  scopeid 0x10
loop  txqueuelen 1000  (Local Loopback)
RX packets 12  bytes 1020 (1020.0 B)
RX errors 0  dropped 0  overruns 0  frame 0
TX packets 12  bytes 1020 (1020.0 B)
TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
$ conda activate pytorch_env
$ . env_vars.sh
$ python
>>> import torch.distributed
>>> torch.distributed.init_process_group('gloo')

# Do the same on rank 0 machine
Примерно через 30 секунд машина 0 выводит следующее, а машина 1 просто продолжает зависать.

Код: Выделить всё

[E ProcessGroupGloo.cpp:138] Gloo connectFullMesh failed with [/opt/conda/conda-bld/pytorch_1699449045860/work/third_party/gloo/gloo/transport/tcp/pair.cc:144] no error
Traceback (most recent call last):
File "", line 1, in 
File "/home/ec2-user/miniconda3/envs/pytorch_env/lib/python3.9/site-packages/torch/distributed/c10d_logger.py", line 74, in wrapper
func_return = func(*args, **kwargs)
File "/home/ec2-user/miniconda3/envs/pytorch_env/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py", line 1155, in init_process_group
default_pg, _ = _new_process_group_helper(
File "/home/ec2-user/miniconda3/envs/pytorch_env/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py", line 1293, in _new_process_group_helper
backend_class = ProcessGroupGloo(backend_prefix_store, group_rank, group_size, timeout=timeout)
RuntimeError: Gloo connectFullMesh failed with [/opt/conda/conda-bld/pytorch_1699449045860/work/third_party/gloo/gloo/transport/tcp/pair.cc:144] no error
Я могу подключиться к машине ранга 0 с машины ранга 1:

Код: Выделить всё

# rank 0 machine
nc -lk 23456
# rank 1 machine
telnet … 23456 # use private ip address of rank 0 machine
Trying ...
Connected to …
Escape character is '^]'.
ping
# rank 0 machine
ping
Если я запускаю все одни и те же команды из двух оболочек машины ранга 0 (модифицируя одну из них с помощью экспорта RANK=1), init_process_group завершает выполнение как ожидалось.
Пользователь написал здесь о той же ошибке, которую, по его словам, они решили путем сброса GLOO_SOCKET_IFNAME и TP_SOCKET_IFNAME. Попытка сделать то же самое на моей машине не увенчалась успехом.

Подробнее здесь: https://stackoverflow.com/questions/775 ... nces-hangs
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Когда я подключаюсь к удаленному серверу, scp зависает, команда экрана зависает, htop зависает [закрыто]
    Гость » » в форуме Linux
    0 Ответы
    155 Просмотры
    Последнее сообщение Гость
  • Как включить распространяемый пакет C++ в файл установщика в C#
    Anonymous » » в форуме C#
    0 Ответы
    15 Просмотры
    Последнее сообщение Anonymous
  • Как включить распространяемый пакет C++ в файл установщика в C#
    Anonymous » » в форуме C++
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous
  • Верен ли этот распространяемый код высоты?
    Anonymous » » в форуме Python
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous
  • Как автоматически установить распространяемый компонент Visual C++ для Visual Studio 2015, используемый в Java-коде
    Anonymous » » в форуме JAVA
    0 Ответы
    22 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»