Как обучить нейронные сети PyTorch на TPU с многоядерной обработкой на Kaggle?Python

Программы на Python
Ответить
Anonymous
 Как обучить нейронные сети PyTorch на TPU с многоядерной обработкой на Kaggle?

Сообщение Anonymous »

Я пытался обучить модель resnet50, предоставленную PyTorch, на TPU v5-e8 с использованием пакета torch_xla, поскольку мой запас графического процессора Kaggle почти исчерпан. Однако я постоянно сталкивался с проблемами. Обучение на одном ядре TPU работает, но как только я пытаюсь использовать многоядерную обработку, начинается ад. Для справки я использовал фрагменты кода, представленные на странице XLA на GitHub, а также официальную документацию PyTorch XLA, но все равно каждый раз получаю одну и ту же ошибку. ИИ тоже не поможет. Использование аргумента отладки debug_single_process=True в torch_xla.launch() для указания использования только одного ядра — единственный способ заставить его работать, но это противоречит цели.
Bad StatusOr access: UNKNOWN: TPU initialization failed: Invalid --2a886c8_slice_builder_worker_addresses specified. Expected 8 worker addresses, got 1.


Подробнее здесь: https://stackoverflow.com/questions/799 ... ng-on-kagg
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»