Model.fit не работает, когда использование глубокого обучения дает ошибку с cuda [закрыто]

Model.fit не работает, когда использование глубокого обучения дает ошибку с cuda [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Model.fit не работает, когда использование глубокого обучения дает ошибку с cuda [закрыто]

Цитата

Сообщение Anonymous » 31 окт 2025, 22:48

Profiling failure on CUDNN engine 1: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16779264 bytes. Profiling failure on CUDNN engine 0: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16777216 bytes. Profiling failure on CUDNN engine 2: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16842752 bytes. Profiling failure on CUDNN engine 4: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 205783040 bytes. Profiling failure on CUDNN engine 5: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 28475392 bytes.

Код: Выделить всё

    Could not load library cudnn_cnn_train64_8.dll.
Error code 1455
Please make sure cudnn_cnn_train64_8.dll is in your library path!

Дополнительные примечания:
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Проблема началась после недавних обновлений Windows или, возможно, ухудшения памяти RAM/GPU.
Вопрос:
Почему TensorFlow теперь выдает RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше это работало?

Подробнее здесь: https://stackoverflow.com/questions/798 ... -with-cuda

1761940134

Anonymous

Я использую TensorFlow 2.10, CUDA 11.2 и cuDNN 8.1 на своем ноутбуке (графический процессор NVIDIA MX130) уже более года без каких-либо проблем.
Он успешно обучил модели с ~6 миллионами параметров (включая предварительно обученные слои + пользовательские слои Conv и Dense).
Однако в последний месяц TensorFlow перестал работать должным образом.
Когда Я начинаю тренироваться, мой ноутбук отключается/перезагружается (синий экран: «Проблема, мы пытаемся перезагрузить»).
Вот что я пробовал:
Переустановил драйвер графического процессора (ранее версия 577 → теперь версия 511).
Переустановил cuDNN 8.1 в C:\CuDNN\cuda\ (содержит bin, lib, включить папки).
Переустановил CUDA 11.2 в
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2.
Повторно добавил пути CUDA и cuDNN к переменным системной среды.
Переустановил Anaconda и TensorFlow 2.10.
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Вопрос:
Почему TensorFlow теперь выдает ошибки RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше он работал?
Он работает с небольшими моделями (например, 5000 образцов MNIST).
Но когда я добавляю сверточные слои или предварительно обученные слои, во время обучения происходит сбой с такими ошибками:
[code]Profiling failure on CUDNN engine 1: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16779264 bytes. Profiling failure on CUDNN engine 0: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16777216 bytes. Profiling failure on CUDNN engine 2: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16842752 bytes. Profiling failure on CUDNN engine 4: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 205783040 bytes. Profiling failure on CUDNN engine 5: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 28475392 bytes. [/code]
[code] Could not load library cudnn_cnn_train64_8.dll.
Error code 1455
Please make sure cudnn_cnn_train64_8.dll is in your library path!
[/code]
Дополнительные примечания:
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Проблема началась после недавних обновлений Windows или, возможно, ухудшения памяти RAM/GPU.
Вопрос:
Почему TensorFlow теперь выдает RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше это работало?

Подробнее здесь: [url]https://stackoverflow.com/questions/79805970/model-fit-doesnt-work-when-use-deep-learning-gives-error-with-cuda[/url]