Как запустить pytorch внутри контейнеров докеров на двух виртуальных машинах GCP? - Цифровое Кемерово

Как запустить pytorch внутри контейнеров докеров на двух виртуальных машинах GCP? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как запустить pytorch внутри контейнеров докеров на двух виртуальных машинах GCP?

Цитата

Сообщение Anonymous » 25 сен 2024, 05:03

У меня есть две виртуальные машины GCP. на двух виртуальных машинах я запускаю docker-контейнер.
Я запускаю

Код: Выделить всё

docker run --gpus all -it --rm --entrypoint /bin/bash -p 8000:8000 -p 7860:7860 -p 29500:29500 lf

Я пробую llama-factory.
В одном контейнере запускаю

Код: Выделить всё

FORCE_TORCHRUN=1 NNODES=2 RANK=1 MASTER_ADDR=34.138.7.129 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft_ds3.yaml

,
где 34.138.7.129 — внешний IP-адрес виртуальной машины.
В другом контейнере я запускаю

Код: Выделить всё

FORCE_TORCHRUN=1 NNODES=2 RANK=0 MASTER_ADDR=34.138.7.129 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft_ds3.yaml

.
Но у меня есть

Код: Выделить всё

[rank1]: torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1970, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.20.5
[rank1]: ncclSystemError: System call (e.g. socket, malloc) or external library call failed or device error.
[rank1]: Last error:
[rank1]: socketStartConnect: Connect to 172.17.0.2 failed : Software caused connection abort
E0924 21:26:39.866000 140711615779968 torch/distributed/elastic/multiprocessing/api.py:826] failed (exitcode: 1) local_rank: 0 (pid: 484) of binary: /usr/bin/python3.10
Traceback (most recent call last):
File "/usr/local/bin/torchrun", line 8, in 
sys.exit(main())
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 347, in wrapper
return f(*args, **kwargs)
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/run.py", line 879, in main
run(args)
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/run.py", line 870, in run
elastic_launch(
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/launcher/api.py", line 132, in __call__
return launch_agent(self._config, self._entrypoint, list(args))
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/launcher/api.py", line 263, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
============================================================
/workspace/LLaMA-Factory/src/llamafactory/launcher.py FAILED
------------------------------------------------------------
Failures:

------------------------------------------------------------
Root Cause (first observed failure):
[0]:
time      : 2024-09-24_21:26:39
host      : 71af1f49abe3
rank      : 1 (local_rank: 0)
exitcode  : 1 (pid: 484)
error_file: 
traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
============================================================

похоже, что pytorch использует IP-адрес контейнера Docker вместо внешнего IP-адреса виртуальной машины gcp.
Как это исправить?

Подробнее здесь: https://stackoverflow.com/questions/790 ... two-gcp-vm

Реклама

1727229810

Anonymous

У меня есть две виртуальные машины GCP. на двух виртуальных машинах я запускаю docker-контейнер.
Я запускаю
[code]docker run --gpus all -it --rm --entrypoint /bin/bash -p 8000:8000 -p 7860:7860 -p 29500:29500 lf[/code]
Я пробую llama-factory.
В одном контейнере запускаю
[code]FORCE_TORCHRUN=1 NNODES=2 RANK=1 MASTER_ADDR=34.138.7.129 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft_ds3.yaml[/code],
где 34.138.7.129 — внешний IP-адрес виртуальной машины.
В другом контейнере я запускаю
[code]FORCE_TORCHRUN=1 NNODES=2 RANK=0 MASTER_ADDR=34.138.7.129 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft_ds3.yaml[/code].
Но у меня есть
[code][rank1]: torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1970, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.20.5
[rank1]: ncclSystemError: System call (e.g. socket, malloc) or external library call failed or device error.
[rank1]: Last error:
[rank1]: socketStartConnect: Connect to 172.17.0.2 failed : Software caused connection abort
E0924 21:26:39.866000 140711615779968 torch/distributed/elastic/multiprocessing/api.py:826] failed (exitcode: 1) local_rank: 0 (pid: 484) of binary: /usr/bin/python3.10
Traceback (most recent call last):
File "/usr/local/bin/torchrun", line 8, in 
sys.exit(main())
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 347, in wrapper
return f(*args, **kwargs)
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/run.py", line 879, in main
run(args)
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/run.py", line 870, in run
elastic_launch(
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/launcher/api.py", line 132, in __call__
return launch_agent(self._config, self._entrypoint, list(args))
File "/usr/local/lib/python3.10/dist-packages/torch/distributed/launcher/api.py", line 263, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
============================================================
/workspace/LLaMA-Factory/src/llamafactory/launcher.py FAILED
------------------------------------------------------------
Failures:

------------------------------------------------------------
Root Cause (first observed failure):
[0]:
time      : 2024-09-24_21:26:39
host      : 71af1f49abe3
rank      : 1 (local_rank: 0)
exitcode  : 1 (pid: 484)
error_file: 
traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
============================================================
[/code]
похоже, что pytorch использует IP-адрес контейнера Docker вместо внешнего IP-адреса виртуальной машины gcp.
Как это исправить? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79020422/how-to-run-pytorch-inside-docker-containers-on-two-gcp-vm[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как запустить pytorch внутри контейнеров докеров на двух виртуальных машинах GCP?

Последнее сообщение Anonymous « 25 сен 2024, 00:39
Добавлено в форуме Python

Anonymous » 25 сен 2024, 00:39 » в форуме Python

У меня есть две виртуальные машины GCP. на двух виртуальных машинах я запускаю docker-контейнер.
Я запускаю
docker run --gpus all -it --rm --entrypoint /bin/bash -p 8000:8000 -p 7860:7860 -p 29500:29500 lf
Я пробую llama-factory.
В одном...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 00:39
Добавление xdebug в мой файл докеров php apache приводит к сбою контейнера докеров

Последнее сообщение Anonymous « 01 апр 2024, 16:56
Добавлено в форуме Php

Anonymous » 01 апр 2024, 16:56 » в форуме Php

У меня есть файл Docker, использующий PHP и Apache, в который я пытаюсь интегрировать xdebug. Dockerfile был успешно создан, но, похоже, не работает при добавлении строк, относящихся к xdebug.
Это команда, которую я пытаюсь добавить в свой...

0 Ответы

130 Просмотры

Последнее сообщение Anonymous
01 апр 2024, 16:56
Запустите подмножество служб создания докеров (контейнеров). Использовать скрипт?

Последнее сообщение Anonymous « 10 окт 2024, 18:53
Добавлено в форуме Python

Anonymous » 10 окт 2024, 18:53 » в форуме Python

Как запустить только некоторые контейнеры из списка сервисов, присутствующих в файле docker-compose.yml?
MS Visual Studio это поддерживает, см. здесь.
Этот вопрос уже задавался: docker-compose up только для определенных контейнеров, но меня не...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 18:53
У некоторых адаптеров -контейнеров защищены участники, так почему же у них также нет виртуальных деструкторов? [дублиров

Последнее сообщение Anonymous « 07 июл 2025, 18:53
Добавлено в форуме C++

Anonymous » 07 июл 2025, 18:53 » в форуме C++

Несколько адапторов-контейнеров-специфично, std :: privation_queue , std :: stach и std :: queue -предоставление защищенного доступа к базовому контейнеру первого порядка, например, std :: vector или std :: deque . Это кажется явным приглашением к...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
07 июл 2025, 18:53
У некоторых адаптеров -контейнеров защищены участники, так почему же у них также нет виртуальных деструкторов?

Последнее сообщение Anonymous « 07 июл 2025, 20:02
Добавлено в форуме C++

Anonymous » 07 июл 2025, 20:02 » в форуме C++

Несколько адапторов-контейнеров-специфично, std :: privation_queue , std :: stach и std :: queue -предоставление защищенного доступа к базовому контейнеру первого порядка, например, std :: vector или std :: deque . Это кажется явным приглашением к...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
07 июл 2025, 20:02

Вернуться в «Python»

Programmiererforum