Model.fit не работает, когда использование глубокого обучения дает ошибку с cuda [закрыто]Python

Программы на Python
Ответить
Anonymous
 Model.fit не работает, когда использование глубокого обучения дает ошибку с cuda [закрыто]

Сообщение Anonymous »

Я использую TensorFlow 2.10, CUDA 11.2 и cuDNN 8.1 на своем ноутбуке (графический процессор NVIDIA MX130) уже более года без каких-либо проблем.
Он успешно обучил модели с ~6 миллионами параметров (включая предварительно обученные слои + пользовательские слои Conv и Dense).
Однако в последний месяц TensorFlow перестал работать должным образом.
Когда Я начинаю тренироваться, мой ноутбук отключается/перезагружается (синий экран: «Проблема, мы пытаемся перезагрузить»).
Вот что я пробовал:
Переустановил драйвер графического процессора (ранее версия 577 → теперь версия 511).
Переустановил cuDNN 8.1 в C:\CuDNN\cuda\ (содержит bin, lib, включить папки).
Переустановил CUDA 11.2 в
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2.
Повторно добавил пути CUDA и cuDNN к переменным системной среды.
Переустановил Anaconda и TensorFlow 2.10.
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Вопрос:
Почему TensorFlow теперь выдает ошибки RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше он работал?
Он работает с небольшими моделями (например, 5000 образцов MNIST).
Но когда я добавляю сверточные слои или предварительно обученные слои, во время обучения происходит сбой с такими ошибками:

Код: Выделить всё

Profiling failure on CUDNN engine 1: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16779264 bytes. Profiling failure on CUDNN engine 0: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16777216 bytes. Profiling failure on CUDNN engine 2: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16842752 bytes. Profiling failure on CUDNN engine 4: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 205783040 bytes. Profiling failure on CUDNN engine 5: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 28475392 bytes. 

Код: Выделить всё

    Could not load library cudnn_cnn_train64_8.dll.
Error code 1455
Please make sure cudnn_cnn_train64_8.dll is in your library path!
Дополнительные примечания:
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Проблема началась после недавних обновлений Windows или, возможно, ухудшения памяти RAM/GPU.
Вопрос:
Почему TensorFlow теперь выдает RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше это работало?

Подробнее здесь: https://stackoverflow.com/questions/798 ... -with-cuda
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»