Как использовать Pytorch (+ cuda) с графическим процессором A100? - Цифровое Кемерово

Как использовать Pytorch (+ cuda) с графическим процессором A100? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как использовать Pytorch (+ cuda) с графическим процессором A100?

Цитата

Сообщение Anonymous » 18 июн 2025, 12:01

Я пытался использовать свой текущий код с помощью графического процессора A100, но я получаю эту ошибку: < /p>
---> backend='nccl'
/home/miranda9/miniconda3/envs/metalearningpy1.7.1c10.2/lib/python3.8/site-packages/torch/cuda/__init__.py:104: UserWarning:
A100-SXM4-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 compute_37.
If you want to use the A100-SXM4-40GB GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/
< /code>
, который сбивает с толку, потому что он указывает на обычную установку Pytorch, но не сообщает мне, какую комбинацию версии Pytorch + Cuda использовать для моего конкретного оборудования (A100). Как правильный способ установить Pytorch для A100?# conda install -y pytorch==1.8.0 torchvision cudatoolkit=10.2 -c pytorch
# conda install -y pytorch torchvision cudatoolkit=10.2 -c pytorch
#conda install -y pytorch==1.7.1 torchvision torchaudio cudatoolkit=10.2 -c pytorch -c conda-forge
# conda install -y pytorch==1.6.0 torchvision cudatoolkit=10.2 -c pytorch
#conda install -y pytorch==1.7.1 torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge

# conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch
# conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge
# conda install -y pytorch torchvision cudatoolkit=9.2 -c pytorch # For Nano, CC
# conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge
< /code>

Обратите внимание, что это может быть тонким, потому что у меня была эта ошибка с этой машиной + версией Pytorch в прошлом: < /p>
Как решить знаменитую ошибку Cuda nc1> < /h1> < /h1> < /h1> < /h1> < /h1> < /h1> < /h1> < /h1> < /h1>. /> У меня все еще есть ошибки: < /p>
ncclSystemError: System call (socket, malloc, munmap, etc) failed.
Traceback (most recent call last):
File "/home/miranda9/diversity-for-predictive-success-of-meta-learning/div_src/diversity_src/experiment_mains/main_dist_maml_l2l.py", line 1423, in
main()
File "/home/miranda9/diversity-for-predictive-success-of-meta-learning/div_src/diversity_src/experiment_mains/main_dist_maml_l2l.py", line 1365, in main
train(args=args)
File "/home/miranda9/diversity-for-predictive-success-of-meta-learning/div_src/diversity_src/experiment_mains/main_dist_maml_l2l.py", line 1385, in train
args.opt = move_opt_to_cherry_opt_and_sync_params(args) if is_running_parallel(args.rank) else args.opt
File "/home/miranda9/ultimate-utils/ultimate-utils-proj-src/uutils/torch_uu/distributed.py", line 456, in move_opt_to_cherry_opt_and_sync_params
args.opt = cherry.optim.Distributed(args.model.parameters(), opt=args.opt, sync=syn)
File "/home/miranda9/miniconda3/envs/meta_learning_a100/lib/python3.9/site-packages/cherry/optim.py", line 62, in __init__
self.sync_parameters()
File "/home/miranda9/miniconda3/envs/meta_learning_a100/lib/python3.9/site-packages/cherry/optim.py", line 78, in sync_parameters
dist.broadcast(p.data, src=root)
File "/home/miranda9/miniconda3/envs/meta_learning_a100/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py", line 1090, in broadcast
work = default_pg.broadcast([tensor], opts)
RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:911, unhandled system error, NCCL version 2.7.8
< /code>
Один из ответов, предполагаемый для соответствия nvcca & pytorch.version.cuda, но они не: < /p>
(meta_learning_a100) [miranda9@hal-dgx ~]$ python -c "import torch;print(torch.version.cuda)"

11.1
(meta_learning_a100) [miranda9@hal-dgx ~]$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Wed_Jul_22_19:09:09_PDT_2020
Cuda compilation tools, release 11.0, V11.0.221
Build cuda_11.0_bu.TC445_37.28845127_0
< /code>
Как мне их сопоставить? Я это ошибка? Может ли кто -нибудь отобразить свою версию PIP, Conda и NVCCA, чтобы увидеть, что работает настройка?hal-dgx

21797 [0] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx

21797 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx

21797 [0] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx

21797 [0] NCCL INFO Using network IB
NCCL version 2.7.8+cuda11.1
hal-dgx

21805 [2] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx

21799 [1] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx

21805 [2] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx

21799 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx

21811 [3] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx

21811 [3] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx

21811 [3] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx

21811 [3] NCCL INFO Using network IB
hal-dgx

21799 [1] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx

21805 [2] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx

21799 [1] NCCL INFO Using network IB
hal-dgx

21805 [2] NCCL INFO Using network IB

hal-dgx

27906 [0] misc/ibvwrap.cc:280 NCCL WARN Call to ibv_create_qp failed
hal-dgx

27906 [0] NCCL INFO transport/net_ib.cc:360 -> 2
hal-dgx

27906 [0] NCCL INFO transport/net_ib.cc:437 -> 2
hal-dgx

27906 [0] NCCL INFO include/net.h:21 -> 2
hal-dgx

27906 [0] NCCL INFO include/net.h:51 -> 2
hal-dgx

27906 [0] NCCL INFO init.cc:300 -> 2
hal-dgx

27906 [0] NCCL INFO init.cc:566 -> 2
hal-dgx

27906 [0] NCCL INFO init.cc:840 -> 2
hal-dgx

27906 [0] NCCL INFO group.cc:73 -> 2 [Async thread]

hal-dgx

27929 [3] misc/ibvwrap.cc:280 NCCL WARN Call to ibv_create_qp failed
hal-dgx

27929 [3] NCCL INFO transport/net_ib.cc:360 -> 2
hal-dgx

27929 [3] NCCL INFO transport/net_ib.cc:437 -> 2
hal-dgx

27929 [3] NCCL INFO include/net.h:21 -> 2
hal-dgx

27929 [3] NCCL INFO include/net.h:51 -> 2
hal-dgx

27929 [3] NCCL INFO init.cc:300 -> 2
hal-dgx

27929 [3] NCCL INFO init.cc:566 -> 2
hal-dgx

27929 [3] NCCL INFO init.cc:840 -> 2
hal-dgx

27929 [3] NCCL INFO group.cc:73 -> 2 [Async thread]
< /code>
после размещения < /p>
import os
os.environ["NCCL_DEBUG"] = "INFO"

Подробнее здесь: https://stackoverflow.com/questions/669 ... n-a100-gpu

Реклама

1750237270

Anonymous

 Я пытался использовать свой текущий код с помощью графического процессора A100, но я получаю эту ошибку: < /p>
---> backend='nccl'
/home/miranda9/miniconda3/envs/metalearningpy1.7.1c10.2/lib/python3.8/site-packages/torch/cuda/__init__.py:104: UserWarning:
A100-SXM4-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 compute_37.
If you want to use the A100-SXM4-40GB GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/
< /code>
, который сбивает с толку, потому что он указывает на обычную установку Pytorch, но не сообщает мне, какую комбинацию версии Pytorch + Cuda использовать для моего конкретного оборудования (A100). Как правильный способ установить Pytorch для A100?# conda install -y pytorch==1.8.0 torchvision cudatoolkit=10.2 -c pytorch
# conda install -y pytorch torchvision cudatoolkit=10.2 -c pytorch
#conda install -y pytorch==1.7.1 torchvision torchaudio cudatoolkit=10.2 -c pytorch -c conda-forge
# conda install -y pytorch==1.6.0 torchvision cudatoolkit=10.2 -c pytorch
#conda install -y pytorch==1.7.1 torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge

# conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch
# conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge
# conda install -y pytorch torchvision cudatoolkit=9.2 -c pytorch # For Nano, CC
# conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge
< /code>

Обратите внимание, что это может быть тонким, потому что у меня была эта ошибка с этой машиной + версией Pytorch в прошлом: < /p>
Как решить знаменитую ошибку Cuda nc1>        < /h1>  < /h1> < /h1>  < /h1> < /h1> < /h1> < /h1> < /h1> < /h1>.  />  У меня все еще есть ошибки: < /p>
ncclSystemError: System call (socket, malloc, munmap, etc) failed.
Traceback (most recent call last):
File "/home/miranda9/diversity-for-predictive-success-of-meta-learning/div_src/diversity_src/experiment_mains/main_dist_maml_l2l.py", line 1423, in 
main()
File "/home/miranda9/diversity-for-predictive-success-of-meta-learning/div_src/diversity_src/experiment_mains/main_dist_maml_l2l.py", line 1365, in main
train(args=args)
File "/home/miranda9/diversity-for-predictive-success-of-meta-learning/div_src/diversity_src/experiment_mains/main_dist_maml_l2l.py", line 1385, in train
args.opt = move_opt_to_cherry_opt_and_sync_params(args) if is_running_parallel(args.rank) else args.opt
File "/home/miranda9/ultimate-utils/ultimate-utils-proj-src/uutils/torch_uu/distributed.py", line 456, in move_opt_to_cherry_opt_and_sync_params
args.opt = cherry.optim.Distributed(args.model.parameters(), opt=args.opt, sync=syn)
File "/home/miranda9/miniconda3/envs/meta_learning_a100/lib/python3.9/site-packages/cherry/optim.py", line 62, in __init__
self.sync_parameters()
File "/home/miranda9/miniconda3/envs/meta_learning_a100/lib/python3.9/site-packages/cherry/optim.py", line 78, in sync_parameters
dist.broadcast(p.data, src=root)
File "/home/miranda9/miniconda3/envs/meta_learning_a100/lib/python3.9/site-packages/torch/distributed/distributed_c10d.py", line 1090, in broadcast
work = default_pg.broadcast([tensor], opts)
RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:911, unhandled system error, NCCL version 2.7.8
< /code>
Один из ответов, предполагаемый для соответствия nvcca & pytorch.version.cuda, но они не: < /p>
(meta_learning_a100) [miranda9@hal-dgx ~]$ python -c "import torch;print(torch.version.cuda)"

11.1
(meta_learning_a100) [miranda9@hal-dgx ~]$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Wed_Jul_22_19:09:09_PDT_2020
Cuda compilation tools, release 11.0, V11.0.221
Build cuda_11.0_bu.TC445_37.28845127_0
< /code>
Как мне их сопоставить? Я это ошибка? Может ли кто -нибудь отобразить свою версию PIP, Conda и NVCCA, чтобы увидеть, что работает настройка?hal-dgx:21797:21797 [0] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx:21797:21797 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx:21797:21797 [0] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx:21797:21797 [0] NCCL INFO Using network IB
NCCL version 2.7.8+cuda11.1
hal-dgx:21805:21805 [2] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx:21799:21799 [1] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx:21805:21805 [2] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx:21799:21799 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx:21811:21811 [3] NCCL INFO Bootstrap : Using [0]enp226s0:141.142.153.83 [1]virbr0:192.168.122.1
hal-dgx:21811:21811 [3] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
hal-dgx:21811:21811 [3] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx:21811:21811 [3] NCCL INFO Using network IB
hal-dgx:21799:21799 [1] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx:21805:21805 [2] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/IB [2]mlx5_2:1/IB [3]mlx5_3:1/IB [4]mlx5_4:1/IB [5]mlx5_5:1/IB [6]mlx5_6:1/IB [7]mlx5_7:1/IB ; OOB enp226s0:141.142.153.83
hal-dgx:21799:21799 [1] NCCL INFO Using network IB
hal-dgx:21805:21805 [2] NCCL INFO Using network IB

hal-dgx:21797:27906 [0] misc/ibvwrap.cc:280 NCCL WARN Call to ibv_create_qp failed
hal-dgx:21797:27906 [0] NCCL INFO transport/net_ib.cc:360 -> 2
hal-dgx:21797:27906 [0] NCCL INFO transport/net_ib.cc:437 -> 2
hal-dgx:21797:27906 [0] NCCL INFO include/net.h:21 -> 2
hal-dgx:21797:27906 [0] NCCL INFO include/net.h:51 -> 2
hal-dgx:21797:27906 [0] NCCL INFO init.cc:300 ->  2
hal-dgx:21797:27906 [0] NCCL INFO init.cc:566 -> 2
hal-dgx:21797:27906 [0] NCCL INFO init.cc:840 -> 2
hal-dgx:21797:27906 [0] NCCL INFO group.cc:73 -> 2 [Async thread]

hal-dgx:21811:27929 [3] misc/ibvwrap.cc:280 NCCL WARN Call to ibv_create_qp failed
hal-dgx:21811:27929 [3] NCCL INFO transport/net_ib.cc:360 -> 2
hal-dgx:21811:27929 [3] NCCL INFO transport/net_ib.cc:437 -> 2
hal-dgx:21811:27929 [3] NCCL INFO include/net.h:21 -> 2
hal-dgx:21811:27929 [3] NCCL INFO include/net.h:51 -> 2
hal-dgx:21811:27929 [3] NCCL INFO init.cc:300 -> 2
hal-dgx:21811:27929 [3] NCCL INFO init.cc:566 -> 2
hal-dgx:21811:27929 [3] NCCL INFO init.cc:840 -> 2
hal-dgx:21811:27929 [3] NCCL INFO group.cc:73 -> 2 [Async thread]
< /code>
после размещения < /p>
import os
os.environ["NCCL_DEBUG"] = "INFO"
 

Подробнее здесь: [url]https://stackoverflow.com/questions/66992585/how-does-one-use-pytorch-cuda-with-an-a100-gpu[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Совместное использование констант между процессором и графическим процессором в CUDA

Последнее сообщение Anonymous « 24 июн 2025, 07:22
Добавлено в форуме C++

Anonymous » 24 июн 2025, 07:22 » в форуме C++

Я хотел бы поделиться некоторыми постоянными между процессором и графическим процессором, чтобы разрешить выполнение того же кода (обернутый между ними). Это включает в себя некоторые параметры времени компиляции, которые наиболее разумно написаны в...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
24 июн 2025, 07:22
Совместное использование констант между процессором и графическим процессором в CUDA

Последнее сообщение Anonymous « 14 июл 2025, 11:46
Добавлено в форуме C++

Anonymous » 14 июл 2025, 11:46 » в форуме C++

Я хотел бы поделиться некоторыми постоянными между процессором и графическим процессором, чтобы разрешить выполнение того же кода (обернутый между ними). Это включает в себя некоторые параметры времени компиляции, которые наиболее разумно написаны в...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
14 июл 2025, 11:46
Совместное использование констант между процессором и графическим процессором в CUDA

Последнее сообщение Anonymous « 16 июл 2025, 03:24
Добавлено в форуме C++

Anonymous » 16 июл 2025, 03:24 » в форуме C++

Я хотел бы поделиться некоторыми постоянными между процессором и графическим процессором, чтобы разрешить выполнение того же кода (обернутый между ними). Это включает в себя некоторые параметры времени компиляции, которые наиболее разумно написаны в...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
16 июл 2025, 03:24
Несоответствие производительности между графическим процессором и процессором при умножении матриц: Eigen против ViennaC

Последнее сообщение Anonymous « 09 май 2024, 02:46
Добавлено в форуме C++

Anonymous » 09 май 2024, 02:46 » в форуме C++

Я столкнулся с проблемой производительности при выполнении операций умножения матриц с использованием библиотек Eigen и ViennaCL на C++. Я сравниваю производительность выполнения этих операций на встроенном графическом процессоре моей системы и на...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
09 май 2024, 02:46
Почему обучение PyTorch RetinaNet ResNet50 FPN V2 в Google Colab с графическим процессором T4 происходит так медленно?

Последнее сообщение Anonymous « 24 янв 2025, 22:58
Добавлено в форуме Python

Anonymous » 24 янв 2025, 22:58 » в форуме Python

Я прекрасно настраиваю модель сетчатки Resnet50 FPN V2 с использованием pytorch с retinanet_resnet50_fpn_v2_weights.default. Мой набор данных имеет около 13 050 образцов обучения, и я использую Google Colab с графическим процессором T4. Тем не...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 22:58

Вернуться в «Python»

Programmiererforum