Torch.distributed.elastic.multiprocessing.errors.childfailedError / «Ошибка тазобедренного сустава: неверная функция уст

Torch.distributed.elastic.multiprocessing.errors.childfailedError / «Ошибка тазобедренного сустава: неверная функция уст ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Torch.distributed.elastic.multiprocessing.errors.childfailedError / «Ошибка тазобедренного сустава: неверная функция уст

Цитата

Сообщение Anonymous » 11 апр 2025, 13:35

Я новичок в разработке ИИ, и я пытаюсь обучить модель, дело в том, что на сервере есть два графических процессора AMD, которые представляют собой Radeon RX 7600 XT, а процессор-это Ryzen 9 5900xt 16-ядер, и у меня уже было несколько проблем, когда я написал код обучения из царапины (один из них был OOM на gpU, я не могу использовать оба грабителя, потому что ZOM. MyTe MyTry MyTem MyTeM. MyTeM stocM, и я не могу использовать оба грабителя, из-за того, что я не мог использовать оба грабителя. Изменил мой подход, и я следовал официальной документации AMD для обучения ИИ.
После всей установки, объясненной в этом руководстве и запустите команду, которая запускает обучение, это Traceback: < /p>
Hint: enable_activation_checkpointing is True, but enable_activation_offloading isn't. Enabling activation offloading should reduce memory further.
Setting manual seed to local seed 42. Local seed is seed + rank = 42 + 0
Writing logs to /workspace/notebooks/result/logs/log_1744287800.txt
Distributed training is enabled. Instantiating model and loading checkpoint on Rank 0 ...
[rank1]: Traceback (most recent call last):
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 955, in
[rank1]: sys.exit(recipe_main())
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/config/_parse.py", line 99, in wrapper
[rank1]: sys.exit(recipe_main(conf))
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 949, in recipe_main
[rank1]: recipe.setup(cfg=cfg)
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 296, in setup
[rank1]: self._model = self._setup_model(
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 607, in _setup_model
[rank1]: m.rope_init()
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/models/llama3_1/_position_embeddings.py", line 69, in rope_init
[rank1]: ** (torch.arange(0, self.dim, 2)[: (self.dim // 2)].float() / self.dim)
[rank1]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/utils/_device.py", line 104, in __torch_function__
[rank1]: return func(*args, **kwargs)
[rank1]: RuntimeError: HIP error: invalid device function
[rank1]: HIP kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
[rank1]: For debugging consider passing AMD_SERIALIZE_KERNEL=3
[rank1]: Compile with `TORCH_USE_HIP_DSA` to enable device-side assertions.

[rank0]: Traceback (most recent call last):
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 955, in
[rank0]: sys.exit(recipe_main())
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/config/_parse.py", line 99, in wrapper
[rank0]: sys.exit(recipe_main(conf))
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 949, in recipe_main
[rank0]: recipe.setup(cfg=cfg)
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 296, in setup
[rank0]: self._model = self._setup_model(
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 607, in _setup_model
[rank0]: m.rope_init()
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/models/llama3_1/_position_embeddings.py", line 69, in rope_init
[rank0]: ** (torch.arange(0, self.dim, 2)[: (self.dim // 2)].float() / self.dim)
[rank0]: File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/utils/_device.py", line 104, in __torch_function__
[rank0]: return func(*args, **kwargs)
[rank0]: RuntimeError: HIP error: invalid device function
[rank0]: HIP kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
[rank0]: For debugging consider passing AMD_SERIALIZE_KERNEL=3
[rank0]: Compile with `TORCH_USE_HIP_DSA` to enable device-side assertions.

[rank0]:[W410 12:23:26.761619117 ProcessGroupNCCL.cpp:1487] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources. For more info, please see https://pytorch.org/docs/stable/distrib ... l#shutdown (function operator())
E0410 12:23:27.490000 7605 site-packages/torch/distributed/elastic/multiprocessing/api.py:870] failed (exitcode: 1) local_rank: 0 (pid: 7738) of binary: /opt/conda/envs/py_3.10/bin/python3
Traceback (most recent call last):
File "/opt/conda/envs/py_3.10/bin/tune", line 8, in
sys.exit(main())
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/tune.py", line 52, in main
parser.run(args)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/tune.py", line 46, in run
args.func(args)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/run.py", line 212, in _run_cmd
self._run_distributed(args, is_builtin=is_builtin)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 355, in wrapper
return f(*args, **kwargs)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/run.py", line 101, in _run_distributed
run(args)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/run.py", line 909, in run
elastic_launch(
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 139, in __call__
return launch_agent(self._config, self._entrypoint, list(args))
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 270, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
============================================================
/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py FAILED
< /code>
Все это сталкивается с докером в соответствии с документацией. Я попытался написать переменную среды на BashRC, чтобы установить ее навсегда, потому что я думал, что проблема будет в том, что мой GFX не поддерживался:
echo "export PYTORCH_ROCM_ARCH=gfx1102" >> ~/.bashrc source ~/.bashrc< /code>
Затем клонируйте проект GIT локально, затем < /p>
cd /workspace/pytorch
pip install -r requirements.txt
python setup.py install
< /code>
}
Так что в конечном итоге я повторно рассмотрел обучение с помощью Tune -run -nproc_per_node 2 full_finetune_distributed -config /workspace /ноутбуки my_custom_config_distributed. Предварительные условия, чтобы сделать это, а мой графический процессор не в этом столе, но я нашел в Интернете кого -то, кто пытался следовать этому руководству, даже если их графический процессор не был на этом столе, и они сказали, что они как -то справились ...
Я знаю, что есть возможность сделать это, но я не могу узнать, как. < /p>
P>p.s. Сервер это Linux Ubuntu, больше информации: < /p>
PRETTY_NAME="Ubuntu 22.04.5 LTS"

NAME="Ubuntu"

VERSION_ID="22.04"

VERSION="22.04.5 LTS (Jammy Jellyfish)".

Подробнее здесь: https://stackoverflow.com/questions/795 ... -hip-error

1744367721

Anonymous

 Я новичок в разработке ИИ, и я пытаюсь обучить модель, дело в том, что на сервере есть два графических процессора AMD, которые представляют собой Radeon RX 7600 XT, а процессор-это Ryzen 9 5900xt 16-ядер, и у меня уже было несколько проблем, когда я написал код обучения из царапины (один из них был OOM на gpU, я не могу использовать оба грабителя, потому что ZOM. MyTe MyTry MyTem MyTeM. MyTeM stocM, и я не могу использовать оба грабителя, из-за того, что я не мог использовать оба грабителя. Изменил мой подход, и я следовал официальной документации AMD для обучения ИИ.
После всей установки, объясненной в этом руководстве и запустите команду, которая запускает обучение, это Traceback: < /p>
Hint: enable_activation_checkpointing is True, but enable_activation_offloading isn't. Enabling activation offloading should reduce memory further.
Setting manual seed to local seed 42. Local seed is seed + rank = 42 + 0
Writing logs to /workspace/notebooks/result/logs/log_1744287800.txt
Distributed training is enabled. Instantiating model and loading checkpoint on Rank 0 ...
[rank1]: Traceback (most recent call last):
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 955, in 
[rank1]:     sys.exit(recipe_main())
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/config/_parse.py", line 99, in wrapper
[rank1]:     sys.exit(recipe_main(conf))
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 949, in recipe_main
[rank1]:     recipe.setup(cfg=cfg)
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 296, in setup
[rank1]:     self._model = self._setup_model(
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 607, in _setup_model
[rank1]:     m.rope_init()
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/models/llama3_1/_position_embeddings.py", line 69, in rope_init
[rank1]:     ** (torch.arange(0, self.dim, 2)[: (self.dim // 2)].float() / self.dim)
[rank1]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/utils/_device.py", line 104, in __torch_function__
[rank1]:     return func(*args, **kwargs)
[rank1]: RuntimeError: HIP error: invalid device function
[rank1]: HIP kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
[rank1]: For debugging consider passing AMD_SERIALIZE_KERNEL=3
[rank1]: Compile with `TORCH_USE_HIP_DSA` to enable device-side assertions.

[rank0]: Traceback (most recent call last):
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 955, in 
[rank0]:     sys.exit(recipe_main())
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/config/_parse.py", line 99, in wrapper
[rank0]:     sys.exit(recipe_main(conf))
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 949, in recipe_main
[rank0]:     recipe.setup(cfg=cfg)
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 296, in setup
[rank0]:     self._model = self._setup_model(
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py", line 607, in _setup_model
[rank0]:     m.rope_init()
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/models/llama3_1/_position_embeddings.py", line 69, in rope_init
[rank0]:     ** (torch.arange(0, self.dim, 2)[: (self.dim // 2)].float() / self.dim)
[rank0]:   File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/utils/_device.py", line 104, in __torch_function__
[rank0]:     return func(*args, **kwargs)
[rank0]: RuntimeError: HIP error: invalid device function
[rank0]: HIP kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
[rank0]: For debugging consider passing AMD_SERIALIZE_KERNEL=3
[rank0]: Compile with `TORCH_USE_HIP_DSA` to enable device-side assertions.

[rank0]:[W410 12:23:26.761619117 ProcessGroupNCCL.cpp:1487] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources.  For more info, please see https://pytorch.org/docs/stable/distributed.html#shutdown (function operator())
E0410 12:23:27.490000 7605 site-packages/torch/distributed/elastic/multiprocessing/api.py:870] failed (exitcode: 1) local_rank: 0 (pid: 7738) of binary: /opt/conda/envs/py_3.10/bin/python3
Traceback (most recent call last):
File "/opt/conda/envs/py_3.10/bin/tune", line 8, in 
sys.exit(main())
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/tune.py", line 52, in main
parser.run(args)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/tune.py", line 46, in run
args.func(args)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/run.py", line 212, in _run_cmd
self._run_distributed(args, is_builtin=is_builtin)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 355, in wrapper
return f(*args, **kwargs)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torchtune/_cli/run.py", line 101, in _run_distributed
run(args)
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/run.py", line 909, in run
elastic_launch(
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 139, in __call__
return launch_agent(self._config, self._entrypoint, list(args))
File "/opt/conda/envs/py_3.10/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 270, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
============================================================
/opt/conda/envs/py_3.10/lib/python3.10/site-packages/recipes/full_finetune_distributed.py FAILED
< /code>
Все это сталкивается с докером в соответствии с документацией. Я попытался написать переменную среды на BashRC, чтобы установить ее навсегда, потому что я думал, что проблема будет в том, что мой GFX не поддерживался:
echo "export PYTORCH_ROCM_ARCH=gfx1102" >> ~/.bashrc source ~/.bashrc< /code>
Затем клонируйте проект GIT локально, затем < /p>
cd /workspace/pytorch
pip install -r requirements.txt
python setup.py install
< /code>
}
Так что в конечном итоге я повторно рассмотрел обучение с помощью Tune -run -nproc_per_node 2 full_finetune_distributed -config /workspace /ноутбуки my_custom_config_distributed. Предварительные условия, чтобы сделать это, а мой графический процессор не в этом столе, но я нашел в Интернете кого -то, кто пытался следовать этому руководству, даже если их графический процессор не был на этом столе, и они сказали, что они как -то справились ...
Я знаю, что есть возможность сделать это, но я не могу узнать, как. < /p>
P>p.s. Сервер это Linux Ubuntu, больше информации: < /p>
PRETTY_NAME="Ubuntu 22.04.5 LTS"

NAME="Ubuntu"

VERSION_ID="22.04"

VERSION="22.04.5 LTS (Jammy Jellyfish)".
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79566769/torch-distributed-elastic-multiprocessing-errors-childfailederror-hip-error[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема: torch.distributed.barrier() завис. Как это решить?

Последнее сообщение Anonymous « 09 ноя 2024, 19:37
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 19:37 » в форуме Python

Я пытаюсь использовать DistributedDataParallel и написал для него код. Однако я столкнулся с проблемой, когда процессы останавливаются, когда я использую torch.distributed.barrier() после init_process_group().
Ниже приведен фрагмент кода. в...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 19:37
Как запустить torch.distributed между контейнерами Docker в отдельных экземплярах, используя сеть моста?

Последнее сообщение Anonymous « 10 янв 2025, 10:16
Добавлено в форуме Python

Anonymous » 10 янв 2025, 10:16 » в форуме Python

Я пытаюсь запустить простой скрипт torch.distributed между двумя контейнерами Docker, работающими в разных экземплярах. Ниже приведен код, который я использую:
import os
import torch
import torch.distributed as dist

def init_distributed():...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 10:16
Как запустить torch.distributed между контейнерами Docker в отдельных экземплярах, используя сеть моста?

Последнее сообщение Anonymous « 13 янв 2025, 20:21
Добавлено в форуме Python

Anonymous » 13 янв 2025, 20:21 » в форуме Python

Я пытаюсь запустить простой скрипт torch.distributed между двумя контейнерами Docker, работающими в разных экземплярах. Ниже приведен код, который я использую:
import os
import torch
import torch.distributed as dist

def init_distributed():...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 20:21
Как запустить torch.distributed между контейнерами Docker в отдельных экземплярах, используя сеть моста?

Последнее сообщение Anonymous « 14 янв 2025, 05:52
Добавлено в форуме Python

Anonymous » 14 янв 2025, 05:52 » в форуме Python

Я пытаюсь запустить простой скрипт torch.distributed между двумя контейнерами Docker, работающими в разных экземплярах. Ниже приведен код, который я использую:
import os
import torch
import torch.distributed as dist

def init_distributed():...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 05:52
Как запустить torch.distributed между контейнерами Docker в отдельных экземплярах, используя сеть моста?

Последнее сообщение Anonymous « 19 янв 2025, 20:58
Добавлено в форуме Python

Anonymous » 19 янв 2025, 20:58 » в форуме Python

Я пытаюсь запустить простой скрипт torch.distributed между двумя контейнерами Docker, работающими в разных экземплярах. Ниже приведен код, который я использую:
import os
import torch
import torch.distributed as dist

def init_distributed():...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 20:58

Вернуться в «Python»