Я правильно настроил nvidia-driver, nvidia-docker, gpu-operator на рабочих узлах. >
Однако у меня периодически возникают проблемы, особенно на узлах, оснащенных графическими процессорами RTX 4090 и RTX A6000.
Иногда модули графических процессоров, а иногда даже сами рабочие узлы — невозможно получить доступ к графическому процессору, отображается следующая ошибка
Код: Выделить всё
NVML: Driver/library version mismatch
Может ли это быть связано со смешанными архитектурами графических процессоров или существует другая основная проблема? Будем очень признательны за любые идеи или решения.
В настоящее время я использую crontab для автоматической перезагрузки модуля nvidia при возникновении вышеуказанной ошибки.
Код: Выделить всё
# Switch to multi-user target to stop graphical sessions
sudo systemctl isolate multi-user.target
# Kill all processes using NVIDIA devices
sudo lsof /dev/nvidia* | awk 'NR > 1 {print $2}' | sudo xargs kill
# Unload NVIDIA kernel modules
sudo modprobe -r nvidia-drm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia
Благодаря комментарию
Я получил несколько подсказок и добавил черный список «nvidia-, libnvidia-» в «автоматическое обновление».
Я буду продолжать следить за этой ошибкой и делать обновления
Подробнее здесь: https://stackoverflow.com/questions/783 ... chitecture