Задание CUDA внезапно завершается сбоем на H100, а затем выдает сообщение, что cuda недоступна до перезагрузкиPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Задание CUDA внезапно завершается сбоем на H100, а затем выдает сообщение, что cuda недоступна до перезагрузки

Сообщение Anonymous »

Моя работа H100 с несколькими графическими процессорами внезапно завершается сбоем в Rocky Linux после примерно дня обучения со следующей ошибкой, а затем до перезагрузки графический процессор недоступен, он продолжает выдавать torch.cuda.is_available() как ЛОЖЬ. Простые программы CUDA также не работают. Я пробовал разные версии CUDA и драйверов, но это не помогло.

[rank2]:[E ProcessGroupNCCL.cpp:1414] [PG 0 Rank 2] Группа процессов
поток сторожевого таймера завершен с исключением: ошибка CUDA: неизвестна
сбой запуска. Ошибки ядра CUDA могут асинхронно сообщаться при
некотором другом вызове API, поэтому трассировка стека ниже может быть неправильной. Для
отладки рассмотрите возможность передачи CUDA_LAUNCH_BLOCKING=1. Скомпилировать с помощью

Код: Выделить всё

TORCH_USE_CUDA_DSA
для включения утверждений на стороне устройства.
Исключение, возникшее из c10_cuda_check_implementation по адресу
../c10/cuda/CUDAException.cpp:43 (сначала самый последний вызов): кадр #0:
c10::Error::Error(c10::SourceLocation, std::string) + 0x57
(0x14f5799e8897 в
/home/skatar6/.local/lib/python3 .9/site-packages/torch/lib/libc10.so)
кадр № 1: c10::detail::torchCheckFail(char const*, char const*,
unsigned int, std::string const&) + 0x64 (0x14f579998b25 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libc10.so)
кадр №2: c10::cuda: :c10_cuda_check_implementation(int, char const*,
char const*, int, bool) + 0x118 (0x14f579ac0718 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/ lib/libc10_cuda.so)
кадр №3:
c10d::ProcessGroupNCCL::WorkNCCL::finishedGPUExecutionInternal() const
  • 0x56 (0x14f57acbd8e6 в /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
    кадр № 4: c10d::ProcessGroupNCCL::WorkNCCL::isCompleted() + 0x58
    (0x14f57acc19e8 в
    /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
    кадр №5: c10d::ProcessGroupNCCL ::watchdogHandler() + 0x77c
    (0x14f57acc705c в
    /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
    frame # 6: c10d::ProcessGroupNCCL::ncclCommWatchdog() + 0x10c
    (0x14f57acc7dcc в
    /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
    кадр №7: + 0xd3b75 (0x14f5c6777b75 в
    /mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++.so.6)
    кадр #8: + 0x89c02 (0x14f5c75e7c02 в
    /lib64/libc.so.6) кадр #9: + 0x10ec40
    (0x14f5c766cc40 в /lib64/libc.so.6)
завершить вызов после создания экземпляра 'c10::DistBackendError'
what(): [PG 0 Rank 2] Поток сторожевого таймера группы процессов завершен с
исключением : ошибка CUDA: неуказанный сбой при запуске. Ошибки ядра CUDA
могут асинхронно сообщаться при каком-либо другом вызове API, поэтому
приведенная ниже трассировка стека может быть неверной. Для отладки рассмотрите возможность передачи
CUDA_LAUNCH_BLOCKING=1. Скомпилируйте с помощью TORCH_USE_CUDA_DSA, чтобы включить
утверждения на стороне устройства.
Исключение, возникшее из c10_cuda_check_implementation в
../c10/cuda/CUDAException.cpp:43 (сначала самый последний вызов): кадр #0:
c10::Error::Error(c10::SourceLocation, std::string) + 0x57
(0x14f5799e8897 в
/home/skatar6 /.local/lib/python3.9/site-packages/torch/lib/libc10.so)
кадр №1: c10::detail::torchCheckFail(char const*, char const*,
unsigned int, std::string const&) + 0x64 (0x14f579998b25 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libc10.so)
frame # 2: c10::cuda::c10_cuda_check_implementation(int, char const*,
char const*, int, bool) + 0x118 (0x14f579ac0718 в
/home/skatar6/.local/lib/python3.9 /site-packages/torch/lib/libc10_cuda.so)
кадр №3:
c10d::ProcessGroupNCCL::WorkNCCL::finishedGPUExecutionInternal() const
  • 0x56 (0x14f57acbd8e6 в /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
    кадр № 4: c10d::ProcessGroupNCCL:: WorkNCCL::isCompleted() + 0x58
    (0x14f57acc19e8 в
    /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
    frame #5: c10d::ProcessGroupNCCL::watchdogHandler() + 0x77c
    (0x14f57acc705c в
    /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so )
    кадр №6: c10d::ProcessGroupNCCL::ncclCommWatchdog() + 0x10c
    (0x14f57acc7dcc в
    /home/skatar6/.local/lib/python3.9/site-packages/torch /lib/libtorch_cuda.so)
    кадр №7: + 0xd3b75 (0x14f5c6777b75 в
    /mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++.so. 6)
    кадр №8: + 0x89c02 (0x14f5c75e7c02 в
    /lib64/libc.so.6) кадр №9: + 0x10ec40
    (0x14f5c766cc40 в /lib64/libc.so.6)
Исключение, возникшее из ncclCommWatchdog по адресу
../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1418 (самый последний
сначала вызов): кадр №0: c10::Error::Error(c10::SourceLocation,
std::string) + 0x57 (0x14f5799e8897 в
/home/skatar6/.local/lib/ python3.9/site-packages/torch/lib/libc10.so)
кадр №1: + 0xe32119 (0x14f57a94b119 в
/home/skatar6/.local/lib/python3.9/site-packages /torch/lib/libtorch_cuda.so)
кадр №2: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++. so.6)
кадр №3: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр №4: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so. 6) W1101 18:26:30.049387
22421810101312 torch/distributed/elastic/multiprocessing/api.py:851]
Отправка процесса 75430 сигнала закрытия SIGTERM W1101 18:26:30.054049
224218101013 12 факелов/ распределенный/elastic/multiprocessing/api.py:851]
Отправка процесса 75431 сигнала закрытия SIGTERM W1101 18:26:30.079263
22421810101312 torch/distributed/elastic/multiprocessing/api.py:851]
Отправка сигнала закрытия процесса 75433 SIGTERM Traceback (последний
последний вызов): File
"/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",строка 300, в _run_finalizers
finalizer() Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py»,
строка 224, < Strong>call
res = self._callback(*self._args, **self._kwargs) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util .py",
строка 133, в _remove_temp_dir
rmtree(tempdir) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 734,
в rmtree
_rmtree_safe_fd(fd, path, onerror) Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py», строка 690,
в _rmtree_safe_fdonerror(os.unlink, полное имя, sys.exc_info()) Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py», строка 688,
в _rmtree_safe_fd
os.unlink(entry.name, dir_fd=topfd) Ошибка ОС: [Errno 16] Устройство или ресурс заняты: '.nfs0000000a80005197000000ac' E1101 18:26:31.068613
22421810101312 / api.py:826]
не удалось (код выхода: -6) local_rank: 2 (pid: 75432) двоичного файла:
/home/skatar6/anaconda3/envs/tmp4/bin/python Traceback (самый последний
последний вызов): Файл «/home/skatar6/anaconda3/envs/tmp4/bin/accelerate»,
строка 8, в
sys.exit(main()) Файл «/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/accelerate_cli.py",
строка 48 в основном файле
args.func(args) "/ home/skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/launch.py",
строка 1159, в launch_command
multi_gpu_launcher(args) Файл "/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/launch.py",
строка 793, в файле multi_gpu_launcher
distrib_run.run(args) "/ home/skatar6/.local/lib/python3.9/site-packages/torch/distributed/run.py",
строка 870, в run
elastic_launch( File "/home/skatar6/.local /lib/python3.9/site-packages/torch/distributed/launcher/api.py",
строка 132, в вызове
return launch_agent(self._config, self ._entrypoint, list(args)) Файл
"/home/skatar6/.local/lib/python3.9/site-packages/torch/distributed/launcher/api.py",
строка 263, в launch_agent
поднимите ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
======================== ============================ pretrain_iter.py FAILED
------------- ------------------------- Сбои:
-------------------------------------------------- ---- Основная причина (первый обнаруженный сбой): [0]: время: 2024-11-01_18:26:30

хост: nodex.cluster Rank: 2 (local_rank: 2) код выхода: -6 (pid: 75432) файл_ошибки: обратная трассировка: сигнал 6 (SIGABRT)
получен PID 75432
============= ======================================== Трассировка (последний вызов): Файл
"/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 300, в _run_finalizers
finalizer() Файл "/home/ skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 224, в call
res = self._callback(*self. _args, **self._kwargs) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 133, в _remove_temp_dir
rmtree(tempdir) ) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 734,
в rmtree
_rmtree_safe_fd(fd, path, onerror) Файл "/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 690,
в файле _rmtree_safe_fd
onerror(os.unlink, fullname, sys.exc_info()) "/ home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 688,
в _rmtree_safe_fd
os.unlink(entry.name, dir_fd=topfd) Ошибка ОС: [Errno 16] Устройство или ресурс заняты: '.nfs0000000b00001b84000000ad'


Подробнее здесь: https://stackoverflow.com/questions/791 ... til-reboot
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»