Он успешно обучил модели с ~6 миллионами параметров (включая предварительно обученные слои + пользовательские слои Conv и Dense).
Однако в последний месяц TensorFlow перестал работать должным образом.
Когда Я начинаю тренироваться, мой ноутбук отключается/перезагружается (синий экран: «Проблема, мы пытаемся перезагрузить»).
Вот что я пробовал:
Переустановил драйвер графического процессора (ранее версия 577 → теперь версия 511).
Переустановил cuDNN 8.1 в C:\CuDNN\cuda\ (содержит bin, lib, включить папки).
Переустановил CUDA 11.2 в
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2.
Повторно добавил пути CUDA и cuDNN к переменным системной среды.
Переустановил Anaconda и TensorFlow 2.10.
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Вопрос:
Почему TensorFlow теперь выдает ошибки RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше он работал?
Он работает с небольшими моделями (например, 5000 образцов MNIST).
Но когда я добавляю сверточные слои или предварительно обученные слои, во время обучения происходит сбой с такими ошибками:
Код: Выделить всё
Profiling failure on CUDNN engine 1: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16779264 bytes. Profiling failure on CUDNN engine 0: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16777216 bytes. Profiling failure on CUDNN engine 2: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 16842752 bytes. Profiling failure on CUDNN engine 4: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 205783040 bytes. Profiling failure on CUDNN engine 5: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 28475392 bytes. Код: Выделить всё
Could not load library cudnn_cnn_train64_8.dll.
Error code 1455
Please make sure cudnn_cnn_train64_8.dll is in your library path!
TensorFlow правильно определяет мой графический процессор.
Раньше такая же настройка работала отлично (даже с большими моделями).
Проблема началась после недавних обновлений Windows или, возможно, ухудшения памяти RAM/GPU.
Вопрос:
Почему TensorFlow теперь выдает RESOURCE_EXHAUSTED и cudnn_cnn_train64_8.dll, хотя раньше это работало?
Подробнее здесь: https://stackoverflow.com/questions/798 ... -with-cuda
Мобильная версия