Llama-cpp-python не использует NVIDIA GPU CUDA

Llama-cpp-python не использует NVIDIA GPU CUDA ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Llama-cpp-python не использует NVIDIA GPU CUDA

Цитата

Сообщение Anonymous » 28 мар 2026, 16:54

Я несколько недель без проблем играл с oobabooga text-generation-webui на своей Ubuntu 20.04 с NVIDIA GTX 1060 6 ГБ. Я использовал модели llama2-chat, разделяющие память между моей оперативной памятью и NVIDIA VRAM. Я установил без особых проблем, следуя инструкциям в репозитории.
Поэтому сейчас я хочу использовать загрузчик модели llama-cpp с его привязками пакета llama-cpp-python, чтобы поиграть с ним самостоятельно. Итак, используя ту же среду miniconda3, которую использует oobabooga text-generation-webui, я запустил блокнот Jupyter и смог сделать выводы, и все работает хорошо НО ТОЛЬКО для ЦП.
Рабочий пример ниже:

Код: Выделить всё

from llama_cpp import Llama

llm = Llama(model_path="/mnt/LxData/llama.cpp/models/meta-llama2/llama-2-7b-chat/ggml-model-q4_0.bin",
n_gpu_layers=32, n_threads=6, n_ctx=3584, n_batch=521, verbose=True),

prompt = """[INST] 
Name the planets in the solar system?

[/INST]
"""
output = llm(prompt, max_tokens=350, echo=True)
print(output['choices'][0]['text'].split('[/INST]')[-1])

Конечно! Вот восемь планет нашей Солнечной системы, перечисленные в порядке от ближайшей к Солнцу:

Меркурий
Венера
Земля
Марс
Юпитер
Сатурн
Уран
Нептун

Обратите внимание, что Плутон ранее считался планетой, но теперь классифицируется как карликовая планета из-за его небольшого размера и уникальной орбиты.

Я также хочу сделать вывод с помощью графического процессора. Что не так?
Почему я не могу выполнить разгрузку на графический процессор, как указано в параметре n_gpu_layers=32, а также, как oobabooga text-generation-webui уже без проблем делает в той же среде miniconda?

1774706081

Anonymous

Я несколько недель без проблем играл с oobabooga text-generation-webui на своей Ubuntu 20.04 с NVIDIA GTX 1060 6 ГБ. Я использовал модели llama2-chat, разделяющие память между моей оперативной памятью и NVIDIA VRAM. Я установил без особых проблем, следуя инструкциям в репозитории.
Поэтому сейчас я хочу использовать загрузчик модели llama-cpp с его привязками пакета llama-cpp-python, чтобы поиграть с ним самостоятельно. Итак, используя ту же среду miniconda3, которую использует oobabooga text-generation-webui, я запустил блокнот Jupyter и смог сделать выводы, и все работает хорошо НО ТОЛЬКО для ЦП.
Рабочий пример ниже:
[code]from llama_cpp import Llama

llm = Llama(model_path="/mnt/LxData/llama.cpp/models/meta-llama2/llama-2-7b-chat/ggml-model-q4_0.bin",
n_gpu_layers=32, n_threads=6, n_ctx=3584, n_batch=521, verbose=True),

prompt = """[INST] 
Name the planets in the solar system?

[/INST]
"""
output = llm(prompt, max_tokens=350, echo=True)
print(output['choices'][0]['text'].split('[/INST]')[-1])
[/code]

Конечно! Вот восемь планет нашей Солнечной системы, перечисленные в порядке от ближайшей к Солнцу:
[list]
[*]Меркурий
[*]Венера
[*]Земля
[*]Марс
[*]Юпитер
[*]Сатурн
[*]Уран
[*]Нептун
[/list]
Обратите внимание, что Плутон ранее считался планетой, но теперь классифицируется как карликовая планета из-за его небольшого размера и уникальной орбиты.

Я также хочу сделать вывод с помощью графического процессора. Что не так?
Почему я не могу выполнить разгрузку на графический процессор, как указано в параметре n_gpu_layers=32, а также, как oobabooga text-generation-webui уже без проблем делает в той же среде miniconda?