Ожидалось, что все тензоры будут находиться на одном устройстве, но обнаружено как минимум два устройства: cpu и cuda:0,

Ожидалось, что все тензоры будут находиться на одном устройстве, но обнаружено как минимум два устройства: cpu и cuda:0, ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Ожидалось, что все тензоры будут находиться на одном устройстве, но обнаружено как минимум два устройства: cpu и cuda:0,

Цитата

Сообщение Anonymous » 25 сен 2024, 00:47

Я работаю над моделью, предназначенной для работы исключительно на графическом процессоре или на центральном процессоре, но поскольку я работаю над кластером HPC, я использую оба варианта.
Я' Я пытался преобразовать код для работы в моей настройке, но продолжал получать сообщение об ошибке. Ожидается, что все тензоры будут на одном устройстве.
Код выполняется в библиотеке Lightning и в исходном коде. установка имеет следующие параметры:
slurm_args = dict()
if os.environ.get("SLURM_NODELIST") is not None:
# Add SLURM arguments for distributed training
slurm_args = {
"accelerator": "gpu",
"devices": int(os.environ["SLURM_GPUS_ON_NODE"]),
"num_nodes": int(os.environ["SLURM_NNODES"]),
"strategy": "ddp",
}

...
trainer_args = {
"max_epochs": args.nb_epochs,
"log_every_n_steps": LOGGING_STEPS,
"val_check_interval": VAL_CHECK_STEPS,
"logger": wandb_logger,
"callbacks": callbacks,
"accelerator": accelerator,
**slurm_args,
}

...
trainer = lightning.Trainer(**trainer_args)

...
trainer.fit(**train_args, datamodule=datamodule)

Команда model.to("cuda") отсутствует нигде в коде и при добавлении ничего не меняет.
Кто-нибудь знает, какие настройки мне нужно изменить и на какие, чтобы можно было запускать под этими параметрами:
#SBATCH --time=60:00:00
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --mem=180000
#SBATCH --cpus-per-task=20
#SBATCH --gres=gpu:1

Подробнее здесь: https://stackoverflow.com/questions/790 ... -devices-c

1727214430

Anonymous

Я работаю над моделью, предназначенной для работы исключительно на графическом процессоре или на центральном процессоре, но поскольку я работаю над кластером HPC, я использую оба варианта.
Я' Я пытался преобразовать код для работы в моей настройке, но продолжал получать сообщение об ошибке. Ожидается, что все тензоры будут на одном устройстве.
Код выполняется в библиотеке Lightning и в исходном коде. установка имеет следующие параметры:
    slurm_args = dict()
if os.environ.get("SLURM_NODELIST") is not None:
# Add SLURM arguments for distributed training
slurm_args = {
"accelerator": "gpu",
"devices": int(os.environ["SLURM_GPUS_ON_NODE"]),
"num_nodes": int(os.environ["SLURM_NNODES"]),
"strategy": "ddp",
}

...
    trainer_args = {
"max_epochs": args.nb_epochs,
"log_every_n_steps": LOGGING_STEPS,
"val_check_interval": VAL_CHECK_STEPS,
"logger": wandb_logger,
"callbacks": callbacks,
"accelerator": accelerator,
**slurm_args,
}

...
trainer = lightning.Trainer(**trainer_args)

...
trainer.fit(**train_args, datamodule=datamodule)

Команда model.to("cuda") отсутствует нигде в коде и при добавлении ничего не меняет.
Кто-нибудь знает, какие настройки мне нужно изменить и на какие, чтобы можно было запускать под этими параметрами:
#SBATCH --time=60:00:00
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --mem=180000
#SBATCH --cpus-per-task=20
#SBATCH --gres=gpu:1
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79020455/expected-all-tensors-to-be-on-the-same-device-but-found-at-least-two-devices-c[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Ожидалось, что все тензоры будут находиться на одном устройстве, но обнаружено как минимум два устройства: cpu и cuda:0,

Последнее сообщение Anonymous « 25 сен 2024, 08:36
Добавлено в форуме Python

Anonymous » 25 сен 2024, 08:36 » в форуме Python

Я работаю над моделью, предназначенной для работы исключительно на графическом процессоре или на центральном процессоре, но поскольку я работаю над кластером HPC, я использую оба варианта.
Я' Я пытался преобразовать код для работы в моей настройке,...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 08:36
RuntimeError: Ожидалось, что все тензоры будут находиться на одном устройстве, но обнаружено как минимум два устройства:

Последнее сообщение Anonymous « 03 янв 2025, 18:50
Добавлено в форуме Python

Anonymous » 03 янв 2025, 18:50 » в форуме Python

Я сохранил контрольную точку во время тренировки на графическом процессоре. После перезагрузки контрольной точки и продолжения обучения получаю следующую ошибку:
Traceback (most recent call last):
File main.py , line 140, in...

0 Ответы

71 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 18:50
RuntimeError: Ожидалось, что все тензоры будут находиться на одном устройстве, но обнаружено как минимум два устройства:

Последнее сообщение Anonymous « 04 янв 2025, 10:54
Добавлено в форуме Python

Anonymous » 04 янв 2025, 10:54 » в форуме Python

Я сохранил контрольную точку во время тренировки на графическом процессоре. После перезагрузки контрольной точки и продолжения обучения получаю следующую ошибку:
Traceback (most recent call last):
File main.py , line 140, in...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 10:54
RuntimeError: ожидал, что все тензоры будут на одном устройстве, но нашли как минимум два устройства, Cuda: 1 и Cuda: 0!

Последнее сообщение Anonymous « 21 апр 2025, 06:50
Добавлено в форуме Python

Anonymous » 21 апр 2025, 06:50 » в форуме Python

Я сталкиваюсь с проблемой при обучении модели с использованием PEFT и LORA на установке мульти-GPU с Pytorch и обнимающими трансформаторы лица. Ошибка, которую я получаю:
RuntimeError: Expected all tensors to be on the same device, but found at...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
21 апр 2025, 06:50
RuntimeError: ожидал, что все тензоры будут на одном устройстве, но нашли как минимум два устройства, Cuda: 1 и Cuda: 0!

Последнее сообщение Anonymous « 21 апр 2025, 12:41
Добавлено в форуме Python

Anonymous » 21 апр 2025, 12:41 » в форуме Python

runtimeerror: ожидал, что все тензоры будут на одном устройстве, но нашли как минимум два устройства, Cuda: 1 и Cuda: 0! При использовании архитектуры трансформаторов
это означает, что вам следует обновить свой питор /горел, который является более...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
21 апр 2025, 12:41

Вернуться в «Python»