Задание CUDA внезапно завершается сбоем на H100, а затем выдает сообщение, что cuda недоступна до перезагрузки

Задание CUDA внезапно завершается сбоем на H100, а затем выдает сообщение, что cuda недоступна до перезагрузки ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Задание CUDA внезапно завершается сбоем на H100, а затем выдает сообщение, что cuda недоступна до перезагрузки

Цитата

Сообщение Anonymous » 02 ноя 2024, 13:12

Моя работа H100 с несколькими графическими процессорами внезапно завершается сбоем в Rocky Linux после примерно дня обучения со следующей ошибкой, а затем до перезагрузки графический процессор недоступен, он продолжает выдавать torch.cuda.is_available() как ЛОЖЬ. Простые программы CUDA также не работают. Я пробовал разные версии CUDA и драйверов, но это не помогло.

[rank2]:[E ProcessGroupNCCL.cpp:1414] [PG 0 Rank 2] Группа процессов
поток сторожевого таймера завершен с исключением: ошибка CUDA: неизвестна
сбой запуска. Ошибки ядра CUDA могут асинхронно сообщаться при
некотором другом вызове API, поэтому трассировка стека ниже может быть неправильной. Для
отладки рассмотрите возможность передачи CUDA_LAUNCH_BLOCKING=1. Скомпилировать с помощью

Код: Выделить всё

TORCH_USE_CUDA_DSA

для включения утверждений на стороне устройства.
Исключение, возникшее из c10_cuda_check_implementation по адресу
../c10/cuda/CUDAException.cpp:43 (сначала самый последний вызов): кадр #0:
c10::Error::Error(c10::SourceLocation, std::string) + 0x57
(0x14f5799e8897 в
/home/skatar6/.local/lib/python3 .9/site-packages/torch/lib/libc10.so)
кадр № 1: c10::detail::torchCheckFail(char const*, char const*,
unsigned int, std::string const&) + 0x64 (0x14f579998b25 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libc10.so)
кадр №2: c10::cuda: :c10_cuda_check_implementation(int, char const*,
char const*, int, bool) + 0x118 (0x14f579ac0718 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/ lib/libc10_cuda.so)
кадр №3:
c10d::ProcessGroupNCCL::WorkNCCL::finishedGPUExecutionInternal() const

0x56 (0x14f57acbd8e6 в /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр № 4: c10d::ProcessGroupNCCL::WorkNCCL::isCompleted() + 0x58
(0x14f57acc19e8 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр №5: c10d::ProcessGroupNCCL ::watchdogHandler() + 0x77c
(0x14f57acc705c в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
frame # 6: c10d::ProcessGroupNCCL::ncclCommWatchdog() + 0x10c
(0x14f57acc7dcc в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр №7: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++.so.6)
кадр #8: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр #9: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so.6)

завершить вызов после создания экземпляра 'c10::DistBackendError'
what(): [PG 0 Rank 2] Поток сторожевого таймера группы процессов завершен с
исключением : ошибка CUDA: неуказанный сбой при запуске. Ошибки ядра CUDA
могут асинхронно сообщаться при каком-либо другом вызове API, поэтому
приведенная ниже трассировка стека может быть неверной. Для отладки рассмотрите возможность передачи
CUDA_LAUNCH_BLOCKING=1. Скомпилируйте с помощью TORCH_USE_CUDA_DSA, чтобы включить
утверждения на стороне устройства.
Исключение, возникшее из c10_cuda_check_implementation в
../c10/cuda/CUDAException.cpp:43 (сначала самый последний вызов): кадр #0:
c10::Error::Error(c10::SourceLocation, std::string) + 0x57
(0x14f5799e8897 в
/home/skatar6 /.local/lib/python3.9/site-packages/torch/lib/libc10.so)
кадр №1: c10::detail::torchCheckFail(char const*, char const*,
unsigned int, std::string const&) + 0x64 (0x14f579998b25 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libc10.so)
frame # 2: c10::cuda::c10_cuda_check_implementation(int, char const*,
char const*, int, bool) + 0x118 (0x14f579ac0718 в
/home/skatar6/.local/lib/python3.9 /site-packages/torch/lib/libc10_cuda.so)
кадр №3:
c10d::ProcessGroupNCCL::WorkNCCL::finishedGPUExecutionInternal() const

0x56 (0x14f57acbd8e6 в /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр № 4: c10d::ProcessGroupNCCL:: WorkNCCL::isCompleted() + 0x58
(0x14f57acc19e8 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
frame #5: c10d::ProcessGroupNCCL::watchdogHandler() + 0x77c
(0x14f57acc705c в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so )
кадр №6: c10d::ProcessGroupNCCL::ncclCommWatchdog() + 0x10c
(0x14f57acc7dcc в
/home/skatar6/.local/lib/python3.9/site-packages/torch /lib/libtorch_cuda.so)
кадр №7: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++.so. 6)
кадр №8: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр №9: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so.6)

Исключение, возникшее из ncclCommWatchdog по адресу
../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1418 (самый последний
сначала вызов): кадр №0: c10::Error::Error(c10::SourceLocation,
std::string) + 0x57 (0x14f5799e8897 в
/home/skatar6/.local/lib/ python3.9/site-packages/torch/lib/libc10.so)
кадр №1: + 0xe32119 (0x14f57a94b119 в
/home/skatar6/.local/lib/python3.9/site-packages /torch/lib/libtorch_cuda.so)
кадр №2: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++. so.6)
кадр №3: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр №4: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so. 6) W1101 18:26:30.049387
22421810101312 torch/distributed/elastic/multiprocessing/api.py:851]
Отправка процесса 75430 сигнала закрытия SIGTERM W1101 18:26:30.054049
224218101013 12 факелов/ распределенный/elastic/multiprocessing/api.py:851]
Отправка процесса 75431 сигнала закрытия SIGTERM W1101 18:26:30.079263
22421810101312 torch/distributed/elastic/multiprocessing/api.py:851]
Отправка сигнала закрытия процесса 75433 SIGTERM Traceback (последний
последний вызов): File
"/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",строка 300, в _run_finalizers
finalizer() Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py»,
строка 224, < Strong>call
res = self._callback(*self._args, **self._kwargs) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util .py",
строка 133, в _remove_temp_dir
rmtree(tempdir) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 734,
в rmtree
_rmtree_safe_fd(fd, path, onerror) Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py», строка 690,
в _rmtree_safe_fdonerror(os.unlink, полное имя, sys.exc_info()) Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py», строка 688,
в _rmtree_safe_fd
os.unlink(entry.name, dir_fd=topfd) Ошибка ОС: [Errno 16] Устройство или ресурс заняты: '.nfs0000000a80005197000000ac' E1101 18:26:31.068613
22421810101312 / api.py:826]
не удалось (код выхода: -6) local_rank: 2 (pid: 75432) двоичного файла:
/home/skatar6/anaconda3/envs/tmp4/bin/python Traceback (самый последний
последний вызов): Файл «/home/skatar6/anaconda3/envs/tmp4/bin/accelerate»,
строка 8, в
sys.exit(main()) Файл «/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/accelerate_cli.py",
строка 48 в основном файле
args.func(args) "/ home/skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/launch.py",
строка 1159, в launch_command
multi_gpu_launcher(args) Файл "/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/launch.py",
строка 793, в файле multi_gpu_launcher
distrib_run.run(args) "/ home/skatar6/.local/lib/python3.9/site-packages/torch/distributed/run.py",
строка 870, в run
elastic_launch( File "/home/skatar6/.local /lib/python3.9/site-packages/torch/distributed/launcher/api.py",
строка 132, в вызове
return launch_agent(self._config, self ._entrypoint, list(args)) Файл
"/home/skatar6/.local/lib/python3.9/site-packages/torch/distributed/launcher/api.py",
строка 263, в launch_agent
поднимите ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
======================== ============================ pretrain_iter.py FAILED
------------- ------------------------- Сбои:
-------------------------------------------------- ---- Основная причина (первый обнаруженный сбой): [0]: время: 2024-11-01_18:26:30

хост: nodex.cluster Rank: 2 (local_rank: 2) код выхода: -6 (pid: 75432) файл_ошибки: обратная трассировка: сигнал 6 (SIGABRT)
получен PID 75432
============= ======================================== Трассировка (последний вызов): Файл
"/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 300, в _run_finalizers
finalizer() Файл "/home/ skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 224, в call
res = self._callback(*self. _args, **self._kwargs) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 133, в _remove_temp_dir
rmtree(tempdir) ) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 734,
в rmtree
_rmtree_safe_fd(fd, path, onerror) Файл "/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 690,
в файле _rmtree_safe_fd
onerror(os.unlink, fullname, sys.exc_info()) "/ home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 688,
в _rmtree_safe_fd
os.unlink(entry.name, dir_fd=topfd) Ошибка ОС: [Errno 16] Устройство или ресурс заняты: '.nfs0000000b00001b84000000ad'

Подробнее здесь: https://stackoverflow.com/questions/791 ... til-reboot

1730542338

Anonymous

Моя работа H100 с несколькими графическими процессорами внезапно завершается сбоем в Rocky Linux после примерно дня обучения со следующей ошибкой, а затем до перезагрузки графический процессор недоступен, он продолжает выдавать torch.cuda.is_available() как ЛОЖЬ. Простые программы CUDA также не работают. Я пробовал разные версии CUDA и драйверов, но это не помогло.

[rank2]:[E ProcessGroupNCCL.cpp:1414] [PG 0 Rank 2] Группа процессов
поток сторожевого таймера завершен с исключением: ошибка CUDA: неизвестна
сбой запуска. Ошибки ядра CUDA могут асинхронно сообщаться при
некотором другом вызове API, поэтому трассировка стека ниже может быть неправильной. Для
отладки рассмотрите возможность передачи CUDA_LAUNCH_BLOCKING=1. Скомпилировать с помощью
[code]TORCH_USE_CUDA_DSA[/code] для включения утверждений на стороне устройства.
Исключение, возникшее из c10_cuda_check_implementation по адресу
../c10/cuda/CUDAException.cpp:43 (сначала самый последний вызов): кадр #0:
c10::Error::Error(c10::SourceLocation, std::string) + 0x57
(0x14f5799e8897 в
/home/skatar6/.local/lib/python3 .9/site-packages/torch/lib/libc10.so)
кадр № 1: c10::detail::torchCheckFail(char const*, char const*,
unsigned int, std::string const&) + 0x64 (0x14f579998b25 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libc10.so)
кадр №2: c10::cuda: :c10_cuda_check_implementation(int, char const*,
char const*, int, bool) + 0x118 (0x14f579ac0718 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/ lib/libc10_cuda.so)
кадр №3:
c10d::ProcessGroupNCCL::WorkNCCL::finishedGPUExecutionInternal() const
[list]
[*]0x56 (0x14f57acbd8e6 в /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр № 4: c10d::ProcessGroupNCCL::WorkNCCL::isCompleted() + 0x58
(0x14f57acc19e8 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр №5: c10d::ProcessGroupNCCL ::watchdogHandler() + 0x77c
(0x14f57acc705c в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
frame # 6: c10d::ProcessGroupNCCL::ncclCommWatchdog() + 0x10c
(0x14f57acc7dcc в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр №7: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++.so.6)
кадр #8: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр #9: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so.6)
[/list]
завершить вызов после создания экземпляра 'c10::DistBackendError'
what(): [PG 0 Rank 2] Поток сторожевого таймера группы процессов завершен с
исключением : ошибка CUDA: неуказанный сбой при запуске. Ошибки ядра CUDA
могут асинхронно сообщаться при каком-либо другом вызове API, поэтому
приведенная ниже трассировка стека может быть неверной. Для отладки рассмотрите возможность передачи
CUDA_LAUNCH_BLOCKING=1. Скомпилируйте с помощью TORCH_USE_CUDA_DSA, чтобы включить
утверждения на стороне устройства.
Исключение, возникшее из c10_cuda_check_implementation в
../c10/cuda/CUDAException.cpp:43 (сначала самый последний вызов): кадр #0:
c10::Error::Error(c10::SourceLocation, std::string) + 0x57
(0x14f5799e8897 в
/home/skatar6 /.local/lib/python3.9/site-packages/torch/lib/libc10.so)
кадр №1: c10::detail::torchCheckFail(char const*, char const*,
unsigned int, std::string const&) + 0x64 (0x14f579998b25 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libc10.so)
frame # 2: c10::cuda::c10_cuda_check_implementation(int, char const*,
char const*, int, bool) + 0x118 (0x14f579ac0718 в
/home/skatar6/.local/lib/python3.9 /site-packages/torch/lib/libc10_cuda.so)
кадр №3:
c10d::ProcessGroupNCCL::WorkNCCL::finishedGPUExecutionInternal() const
[list][*]0x56 (0x14f57acbd8e6 в /home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
кадр № 4: c10d::ProcessGroupNCCL:: WorkNCCL::isCompleted() + 0x58
(0x14f57acc19e8 в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so)
frame #5: c10d::ProcessGroupNCCL::watchdogHandler() + 0x77c
(0x14f57acc705c в
/home/skatar6/.local/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so )
кадр №6: c10d::ProcessGroupNCCL::ncclCommWatchdog() + 0x10c
(0x14f57acc7dcc в
/home/skatar6/.local/lib/python3.9/site-packages/torch /lib/libtorch_cuda.so)
кадр №7: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++.so.  6)
кадр №8: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр №9: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so.6)
[/list]
Исключение, возникшее из ncclCommWatchdog по адресу
../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1418 (самый последний
сначала вызов): кадр №0: c10::Error::Error(c10::SourceLocation,
std::string) + 0x57 (0x14f5799e8897 в
/home/skatar6/.local/lib/ python3.9/site-packages/torch/lib/libc10.so)
кадр №1: + 0xe32119 (0x14f57a94b119 в
/home/skatar6/.local/lib/python3.9/site-packages /torch/lib/libtorch_cuda.so)
кадр №2: + 0xd3b75 (0x14f5c6777b75 в
/mnt/beegfs/home/skatar6/anaconda3/envs/tmp4/bin/../lib/libstdc++. so.6)
кадр №3: + 0x89c02 (0x14f5c75e7c02 в
/lib64/libc.so.6) кадр №4: + 0x10ec40
(0x14f5c766cc40 в /lib64/libc.so. 6) W1101 18:26:30.049387
22421810101312 torch/distributed/elastic/multiprocessing/api.py:851]
Отправка процесса 75430 сигнала закрытия SIGTERM W1101 18:26:30.054049
224218101013 12 факелов/ распределенный/elastic/multiprocessing/api.py:851]
Отправка процесса 75431 сигнала закрытия SIGTERM W1101 18:26:30.079263
22421810101312 torch/distributed/elastic/multiprocessing/api.py:851]
Отправка сигнала закрытия процесса 75433 SIGTERM Traceback (последний
последний вызов): File
"/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",строка 300, в _run_finalizers
finalizer() Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py»,
строка 224, < Strong>call
res = self._callback(*self._args, **self._kwargs) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util .py",
строка 133, в _remove_temp_dir
rmtree(tempdir) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 734,
в rmtree
_rmtree_safe_fd(fd, path, onerror) Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py», строка 690,
в _rmtree_safe_fdonerror(os.unlink, полное имя, sys.exc_info()) Файл «/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py», строка 688,
в _rmtree_safe_fd
os.unlink(entry.name, dir_fd=topfd) Ошибка ОС: [Errno 16] Устройство или ресурс заняты: '.nfs0000000a80005197000000ac' E1101 18:26:31.068613
22421810101312 / api.py:826]
не удалось (код выхода: -6) local_rank: 2 (pid: 75432) двоичного файла:
/home/skatar6/anaconda3/envs/tmp4/bin/python Traceback (самый последний
последний вызов): Файл «/home/skatar6/anaconda3/envs/tmp4/bin/accelerate»,
строка 8, в
sys.exit(main()) Файл «/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/accelerate_cli.py",
строка 48 в основном файле
args.func(args) "/ home/skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/launch.py",
строка 1159, в launch_command
multi_gpu_launcher(args) Файл "/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/site-packages/accelerate/commands/launch.py",
строка 793, в файле multi_gpu_launcher
distrib_run.run(args) "/ home/skatar6/.local/lib/python3.9/site-packages/torch/distributed/run.py",
строка 870, в run
elastic_launch( File "/home/skatar6/.local /lib/python3.9/site-packages/torch/distributed/launcher/api.py",
строка 132, в [b]вызове[/b]
return launch_agent(self._config, self ._entrypoint, list(args)) Файл
"/home/skatar6/.local/lib/python3.9/site-packages/torch/distributed/launcher/api.py",
строка 263, в launch_agent
поднимите ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
======================== ============================ pretrain_iter.py FAILED
------------- ------------------------- Сбои: 
-------------------------------------------------- ---- Основная причина (первый обнаруженный сбой): [0]: время: 2024-11-01_18:26:30

хост: nodex.cluster Rank: 2 (local_rank: 2) код выхода: -6 (pid: 75432) файл_ошибки:  обратная трассировка: сигнал 6 (SIGABRT)
получен PID 75432
============= ======================================== Трассировка (последний вызов): Файл
"/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 300, в _run_finalizers
finalizer() Файл "/home/ skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 224, в [b]call[/b]
res = self._callback(*self.  _args, **self._kwargs) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/multiprocessing/util.py",
строка 133, в _remove_temp_dir
rmtree(tempdir) ) Файл "/home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 734,
в rmtree
_rmtree_safe_fd(fd, path, onerror) Файл "/home /skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 690,
в файле _rmtree_safe_fd
onerror(os.unlink, fullname, sys.exc_info()) "/ home/skatar6/anaconda3/envs/tmp4/lib/python3.9/shutil.py", строка 688,
в _rmtree_safe_fd
os.unlink(entry.name, dir_fd=topfd) Ошибка ОС: [Errno 16] Устройство или ресурс заняты: '.nfs0000000b00001b84000000ad'
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79150429/cuda-job-fails-suddenly-on-h100-and-then-throws-cuda-not-available-until-reboot[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Задание CUDA внезапно завершается сбоем на H100, а затем выдает сообщение, что cuda недоступна до перезагрузки

Последнее сообщение Anonymous « 02 ноя 2024, 13:54
Добавлено в форуме Python

Anonymous » 02 ноя 2024, 13:54 » в форуме Python

Моя работа H100 с несколькими графическими процессорами внезапно завершается сбоем в Rocky Linux после примерно дня обучения со следующей ошибкой, а затем до перезагрузки графический процессор недоступен, он продолжает выдавать...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
02 ноя 2024, 13:54
Задание Pytorch внезапно завершается сбоем на H100, а затем выдает cuda, недоступное до перезагрузки [дубликат]

Последнее сообщение Anonymous « 03 ноя 2024, 10:17
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 10:17 » в форуме Python

Моя работа H100 с несколькими графическими процессорами внезапно завершается сбоем в Rocky Linux после примерно дня обучения со следующей ошибкой, а затем до перезагрузки графический процессор недоступен, он продолжает выдавать...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 10:17
Сборка отладки Gradle внезапно завершается сбоем из-за невозможности получить зависимости

Последнее сообщение Anonymous « 07 ноя 2024, 06:14
Добавлено в форуме Android

Anonymous » 07 ноя 2024, 06:14 » в форуме Android

До позавчера всё работало хорошо. Со вчерашнего вечера, после того как я очистил кэш gradle и студии Android, я не смог собрать свое приложение из-за следующих проблем, выявленных gradle:
> FAILURE: Build completed with 9 failures. 1: Task failed...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
07 ноя 2024, 06:14
Pytorch завершается сбоем из-за ошибки CUDA: в Colab срабатывает подтверждение на стороне устройства

Последнее сообщение Anonymous « 18 дек 2024, 05:21
Добавлено в форуме Python

Anonymous » 18 дек 2024, 05:21 » в форуме Python

Я пытаюсь инициализировать тензор в Google Colab с включенным графическим процессором.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

t = torch.tensor( , device=device)

Но я получаю эту странную ошибку.
RuntimeError: CUDA...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
18 дек 2024, 05:21
Неудачное копирование ввода тензора с/задание: localhost/replica: 0/Задача: 0/Устройство: ЦП: от 0 до/задание: localhost

Последнее сообщение Anonymous « 18 июл 2025, 10:01
Добавлено в форуме Python

Anonymous » 18 июл 2025, 10:01 » в форуме Python

У меня есть класс AutoEncoder, где я пытаюсь питать number_test_data с формой (2933314, 600) к кодирующему. Я получаю неудачный копирование ввода тензора от/задание: localhost/replica: 0/задача: 0/устройство: ЦП: от 0 до/задание: localhost/replica:...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
18 июл 2025, 10:01

Вернуться в «Python»