Поэтому сейчас я хочу использовать загрузчик модели llama-cpp с его привязками пакета llama-cpp-python, чтобы поиграть с ним самостоятельно. Итак, используя ту же среду miniconda3, которую использует oobabooga text-generation-webui, я запустил блокнот Jupyter и смог сделать выводы, и все работает хорошо НО ТОЛЬКО для ЦП.
Рабочий пример ниже:
Код: Выделить всё
from llama_cpp import Llama
llm = Llama(model_path="/mnt/LxData/llama.cpp/models/meta-llama2/llama-2-7b-chat/ggml-model-q4_0.bin",
n_gpu_layers=32, n_threads=6, n_ctx=3584, n_batch=521, verbose=True),
prompt = """[INST]
Name the planets in the solar system?
[/INST]
"""
output = llm(prompt, max_tokens=350, echo=True)
print(output['choices'][0]['text'].split('[/INST]')[-1])
- Меркурий
- Венера
- Земля
- Марс
- Юпитер
- Сатурн
- Уран
- Нептун
Я также хочу сделать вывод с помощью графического процессора. Что не так?
Почему я не могу выполнить разгрузку на графический процессор, как указано в параметре n_gpu_layers=32, а также, как oobabooga text-generation-webui уже без проблем делает в той же среде miniconda?
Мобильная версия