Периодические проблемы доступа к графическому процессору в кластере Kubernetes со смешанной архитектурой графического прLinux

Ответить Пред. темаСлед. тема
Anonymous
 Периодические проблемы доступа к графическому процессору в кластере Kubernetes со смешанной архитектурой графического пр

Сообщение Anonymous »

Я инженер MLOps, управляющий локальным кластером графических процессоров k8s.
Я правильно настроил nvidia-driver, nvidia-docker, gpu-operator на рабочих узлах. >
Однако у меня периодически возникают проблемы, особенно на узлах, оснащенных графическими процессорами RTX 4090 и RTX A6000.
Иногда модули графических процессоров, а иногда даже сами рабочие узлы — невозможно получить доступ к графическому процессору, отображается следующая ошибка

Код: Выделить всё

NVML: Driver/library version mismatch
Частота и продолжительность ошибки непредсказуемы, и она возникает не всегда. Я подозреваю, что использование разных архитектур графических процессоров может усугубить проблему.
Может ли это быть связано со смешанными архитектурами графических процессоров или существует другая основная проблема? Будем очень признательны за любые идеи или решения.
В настоящее время я использую crontab для автоматической перезагрузки модуля nvidia при возникновении вышеуказанной ошибки.

Код: Выделить всё

# Switch to multi-user target to stop graphical sessions
sudo systemctl isolate multi-user.target

# Kill all processes using NVIDIA devices
sudo lsof /dev/nvidia* | awk 'NR > 1 {print $2}' | sudo xargs kill

# Unload NVIDIA kernel modules
sudo modprobe -r nvidia-drm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia
------- Отредактировано ------------
Благодаря комментарию
Я получил несколько подсказок и добавил черный список «nvidia-, libnvidia-» в «автоматическое обновление».
Я буду продолжать следить за этой ошибкой и делать обновления

Подробнее здесь: https://stackoverflow.com/questions/783 ... chitecture
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Linux»