Я сохранил контрольную точку во время тренировки на графическом процессоре. После перезагрузки контрольной точки и продолжения обучения получаю следующую ошибку:
Traceback (most recent call last):
File "main.py", line 140, in
train(model,optimizer,train_loader,val_loader,criteria=args.criterion,epoch=epoch,batch=batch)
File "main.py", line 71, in train
optimizer.step()
File "/opt/conda/lib/python3.7/site-packages/torch/autograd/grad_mode.py", line 26, in decorate_context
return func(*args, **kwargs)
File "/opt/conda/lib/python3.7/site-packages/torch/optim/sgd.py", line 106, in step
buf.mul_(momentum).add_(d_p, alpha=1 - dampening)
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!
Я сохранил контрольную точку во время тренировки на графическом процессоре. После перезагрузки контрольной точки и продолжения обучения получаю следующую ошибку: [code]Traceback (most recent call last): File "main.py", line 140, in train(model,optimizer,train_loader,val_loader,criteria=args.criterion,epoch=epoch,batch=batch) File "main.py", line 71, in train optimizer.step() File "/opt/conda/lib/python3.7/site-packages/torch/autograd/grad_mode.py", line 26, in decorate_context return func(*args, **kwargs) File "/opt/conda/lib/python3.7/site-packages/torch/optim/sgd.py", line 106, in step buf.mul_(momentum).add_(d_p, alpha=1 - dampening) RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu! [/code] Мой код обучения следующий: [code]def train(model,optimizer,train_loader,val_loader,criteria,epoch=0,batch=0): batch_count = batch if criteria == 'l1': criterion = L1_imp_Loss() elif criteria == 'l2': criterion = L2_imp_Loss() if args.gpu and torch.cuda.is_available(): model.cuda() criterion = criterion.cuda()
print(f'{datetime.datetime.now().time().replace(microsecond=0)} Starting to train..')
Я сохранил контрольную точку во время тренировки на графическом процессоре. После перезагрузки контрольной точки и продолжения обучения получаю следующую ошибку:
Traceback (most recent call last):
File main.py , line 140, in...
Я работаю над моделью, предназначенной для работы исключительно на графическом процессоре или на центральном процессоре, но поскольку я работаю над кластером HPC, я использую оба варианта.
Я' Я пытался преобразовать код для работы в моей настройке,...
Я работаю над моделью, предназначенной для работы исключительно на графическом процессоре или на центральном процессоре, но поскольку я работаю над кластером HPC, я использую оба варианта.
Я' Я пытался преобразовать код для работы в моей настройке,...
Я сталкиваюсь с проблемой при обучении модели с использованием PEFT и LORA на установке мульти-GPU с Pytorch и обнимающими трансформаторы лица. Ошибка, которую я получаю:
RuntimeError: Expected all tensors to be on the same device, but found at...
runtimeerror: ожидал, что все тензоры будут на одном устройстве, но нашли как минимум два устройства, Cuda: 1 и Cuda: 0! При использовании архитектуры трансформаторов
это означает, что вам следует обновить свой питор /горел, который является более...