Подман и NVIDIA: невозможно использовать графический процессор, только процессор (Passthrough в Rocky Linux 9.4)

Подман и NVIDIA: невозможно использовать графический процессор, только процессор (Passthrough в Rocky Linux 9.4) ⇐ Linux

1 сообщение • Страница 1 из 1

Anonymous

Подман и NVIDIA: невозможно использовать графический процессор, только процессор (Passthrough в Rocky Linux 9.4)

Цитата

Сообщение Anonymous » 03 ноя 2024, 13:06

Постановка проблемы:
Я установил новую копию Rocky Linux 9.4, но не могу распознать свой графический процессор Nvidia контейнерами Podman. Я несколько раз следил за несколькими онлайн-руководствами, но ни одно из них не принесло успеха. Я также пробовал разные контейнеры, но ни один из них не использовал мой графический процессор и вместо этого работал исключительно на процессоре.
Пример запуска podman:podman run -d -p 0.0.0.0

3000 -p 0.0.0.0:8080:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name ollama --restart always ghcr.io/open-webui/open-webui:ollama
выход:
podman logs ollama
Loading WEBUI_SECRET_KEY from file, not provided as an environment variable.
Generating WEBUI_SECRET_KEY
Loading WEBUI_SECRET_KEY from .webui_secret_key
USE_OLLAMA is set to true, starting ollama serve.
2024/11/03 08:43:04 routes.go

INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/root/.ollama/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://*] OLLAMA_SCHED_SPREAD:false OLLAMA_TMPDIR: ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]"
time=2024-11-03T08:43:04.423Z level=INFO source=images.go:754 msg="total blobs: 5"
time=2024-11-03T08:43:04.423Z level=INFO source=images.go:761 msg="total unused blobs removed: 0"
time=2024-11-03T08:43:04.423Z level=INFO source=routes.go:1205 msg="Listening on 127.0.0.1:11434 (version 0.3.14)"
time=2024-11-03T08:43:04.423Z level=INFO source=common.go:135 msg="extracting embedded files" dir=/tmp/ollama1376949335/runners
/app/backend/open_webui
/app/backend
/app
Running migrations
INFO [alembic.runtime.migration] Context impl SQLiteImpl.
INFO [alembic.runtime.migration] Will assume non-transactional DDL.
INFO [open_webui.env] 'DEFAULT_LOCALE' loaded from the latest database entry
INFO [open_webui.env] 'DEFAULT_PROMPT_SUGGESTIONS' loaded from the latest database entry
WARNI [open_webui.env]

WARNING: CORS_ALLOW_ORIGIN IS SET TO '*' - NOT RECOMMENDED FOR PRODUCTION DEPLOYMENTS.

INFO [open_webui.env] Embedding model set: sentence-transformers/all-MiniLM-L6-v2
INFO [open_webui.apps.audio.main] whisper_device_type: cpu
WARNI [langchain_community.utils.user_agent] USER_AGENT environment variable not set, consider setting it to identify your requests.
time=2024-11-03T08:43:12.303Z level=INFO source=common.go:49 msg="Dynamic LLM libraries" runners="[cuda_v12 rocm_v60102 cpu cpu_avx cpu_avx2 cuda_v11]"
time=2024-11-03T08:43:12.303Z level=INFO source=gpu.go:221 msg="looking for compatible GPUs"
time=2024-11-03T08:43:12.317Z level=INFO source=gpu.go:384 msg="no compatible GPUs were discovered"
time=2024-11-03T08:43:12.317Z level=INFO source=types.go:123 msg="inference compute" id=0 library=cpu variant=avx2 compute="" driver=0.0 name="" total="31.0 GiB" available="29.4 GiB"
INFO: Started server process [1]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

Я могу использовать его, но он работает медленно, поскольку работает на процессоре.
Подробности об установке Rocky Linux 9.4:< /strong>
Вот как я установил ОС с нуля:
su
usermod -aG wheel me
dnf config-manager --add-repo https://developer.download.nvidia.com/c ... rhel9.repo
dnf clean all
dnf -y install cuda-toolkit-12-6
dnf -y module install nvidia-driver:latest-dkms
shutdown -r now
sudo dnf install podman -y
sudo systemctl enable podman
sudo systemctl start podman

Проверка nvidia-smi дает мне:
nvidia-smi
Sun Nov 3 09:51:12 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03 Driver Version: 560.35.03 CUDA Version: 12.6 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3090 Off | 00000000:01:00.0 On | N/A |
| 0% 26C P8 9W / 350W | 8MiB / 24576MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+

После этого я попробовал запустить podman с несколькими другими контейнерами, но графический процессор не использовался. Также я попробовал другую версию драйверов Nvidia. Что мне нужно изменить, чтобы podman использовал графический процессор?
p.s.:
Также установка набора инструментов для контейнеров Nvidia ничего не изменила:
curl -s -L https://nvidia.github.io/libnvidia-cont ... olkit.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
sudo dnf install -y nvidia-container-toolkit

Подробнее здесь: https://stackoverflow.com/questions/791 ... rocky-linu

1730628414

Anonymous

[b]Постановка проблемы:[/b]
Я установил новую копию Rocky Linux 9.4, но не могу распознать свой графический процессор Nvidia контейнерами Podman. Я несколько раз следил за несколькими онлайн-руководствами, но ни одно из них не принесло успеха.  Я также пробовал разные контейнеры, но ни один из них не использовал мой графический процессор и вместо этого работал исключительно на процессоре.
[b]Пример запуска podman:[/b]podman run -d -p 0.0.0.0:3000:3000 -p 0.0.0.0:8080:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name ollama --restart always ghcr.io/open-webui/open-webui:ollama
выход:
podman logs ollama
Loading WEBUI_SECRET_KEY from file, not provided as an environment variable.
Generating WEBUI_SECRET_KEY
Loading WEBUI_SECRET_KEY from .webui_secret_key
USE_OLLAMA is set to true, starting ollama serve.
2024/11/03 08:43:04 routes.go:1158: INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/root/.ollama/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://*] OLLAMA_SCHED_SPREAD:false OLLAMA_TMPDIR: ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]"
time=2024-11-03T08:43:04.423Z level=INFO source=images.go:754 msg="total blobs: 5"
time=2024-11-03T08:43:04.423Z level=INFO source=images.go:761 msg="total unused blobs removed: 0"
time=2024-11-03T08:43:04.423Z level=INFO source=routes.go:1205 msg="Listening on 127.0.0.1:11434 (version 0.3.14)"
time=2024-11-03T08:43:04.423Z level=INFO source=common.go:135 msg="extracting embedded files" dir=/tmp/ollama1376949335/runners
/app/backend/open_webui
/app/backend
/app
Running migrations
INFO  [alembic.runtime.migration] Context impl SQLiteImpl.
INFO  [alembic.runtime.migration] Will assume non-transactional DDL.
INFO  [open_webui.env] 'DEFAULT_LOCALE' loaded from the latest database entry
INFO  [open_webui.env] 'DEFAULT_PROMPT_SUGGESTIONS' loaded from the latest database entry
WARNI [open_webui.env]

WARNING: CORS_ALLOW_ORIGIN IS SET TO '*' - NOT RECOMMENDED FOR PRODUCTION DEPLOYMENTS.

INFO  [open_webui.env] Embedding model set: sentence-transformers/all-MiniLM-L6-v2
INFO  [open_webui.apps.audio.main] whisper_device_type: cpu
WARNI [langchain_community.utils.user_agent] USER_AGENT environment variable not set, consider setting it to identify your requests.
time=2024-11-03T08:43:12.303Z level=INFO source=common.go:49 msg="Dynamic LLM libraries" runners="[cuda_v12 rocm_v60102 cpu cpu_avx cpu_avx2 cuda_v11]"
time=2024-11-03T08:43:12.303Z level=INFO source=gpu.go:221 msg="looking for compatible GPUs"
time=2024-11-03T08:43:12.317Z level=INFO source=gpu.go:384 msg="no compatible GPUs were discovered"
time=2024-11-03T08:43:12.317Z level=INFO source=types.go:123 msg="inference compute" id=0 library=cpu variant=avx2 compute="" driver=0.0 name="" total="31.0 GiB" available="29.4 GiB"
INFO:     Started server process [1]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

Я могу использовать его, но он работает медленно, поскольку работает на процессоре.
Подробности об установке Rocky Linux 9.4:< /strong>
Вот как я установил ОС с нуля:
su
usermod -aG wheel me
dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/cuda-rhel9.repo
dnf clean all
dnf -y install cuda-toolkit-12-6
dnf -y module install nvidia-driver:latest-dkms
shutdown -r now
sudo dnf install podman -y
sudo systemctl enable podman
sudo systemctl start podman

Проверка nvidia-smi дает мне:
nvidia-smi
Sun Nov  3 09:51:12 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M.  |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3090        Off |   00000000:01:00.0  On |                  N/A |
|  0%   26C    P8              9W /  350W |       8MiB /  24576MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

После этого я попробовал запустить podman с несколькими другими контейнерами, но графический процессор не использовался. Также я попробовал другую версию драйверов Nvidia. Что мне нужно изменить, чтобы podman использовал графический процессор?
p.s.:
Также установка набора инструментов для контейнеров Nvidia ничего не изменила:
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
sudo dnf install -y nvidia-container-toolkit
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79152356/podman-and-nvidia-cant-get-the-gpu-to-use-only-cpu-passthrough-on-rocky-linu[/url]