Ошибка измерения при использовании нескольких графических процессоров для обучения Pytorch MaskRCNNLinux

Ответить Пред. темаСлед. тема
Anonymous
 Ошибка измерения при использовании нескольких графических процессоров для обучения Pytorch MaskRCNN

Сообщение Anonymous »

Я реализовал базовый цикл для обучения реализации MaskRCNN в Pytorch. У меня есть 4 графических процессора для обучения. Я использую torch.nn.DataParallel(), чтобы использовать несколько графических процессоров, если захочу.
Однако при передаче четного количества графических процессоров, например 0,1 или 0,1,2,3, я получаю следующая ошибка:-

Код: Выделить всё

RuntimeError: Caught RuntimeError in replica 0 on device 6.
Original Traceback (most recent call last):
File "/raid/training_data/motor_insurance/env/lib/python3.8/site-packages/torch/nn/parallel/parallel_apply.py", line 61, in _worker
output = module(*input, **kwargs)
File "/raid/training_data/motor_insurance/env/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl
return forward_call(*input, **kwargs)
File "/raid/training_data/motor_insurance/env/lib/python3.8/site-packages/torchvision/models/detection/generalized_rcnn.py", line 83, in forward
images, targets = self.transform(images, targets)
File "/raid/training_data/motor_insurance/env/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl
return forward_call(*input, **kwargs)
File "/raid/training_data/motor_insurance/env/lib/python3.8/site-packages/torchvision/models/detection/transform.py", line 129, in forward
image = self.normalize(image)
File "/raid/training_data/motor_insurance/env/lib/python3.8/site-packages/torchvision/models/detection/transform.py", line 157, in normalize
return (image - mean[:, None, None]) / std[:, None, None]
RuntimeError: The size of tensor a (2) must match the size of tensor b (3) at non-singleton dimension 0

Но когда я использую нечетное количество графических процессоров, поезд работает отлично, и я тоже получаю правильные результаты. Может ли кто-нибудь помочь в решении этой проблемы.
Я перепробовал все, но думаю, что что-то не так с самим кодом Pytorch

Подробнее здесь: https://stackoverflow.com/questions/791 ... n-training
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Linux»