Итак, теперь я хочу использовать загрузчик модели llama-cpp с его пакетом llama-cpp-python< /code> привязки, чтобы поиграть с ними самому. Итак, используя ту же среду miniconda3, которую использует oobabooga text-generation-webui, я запустил блокнот Jupyter и смог сделать выводы, и все работает хорошо НО ТОЛЬКО для ЦП.
Рабочий пример ниже
Код: Выделить всё
from llama_cpp import Llama
llm = Llama(model_path="/mnt/LxData/llama.cpp/models/meta-llama2/llama-2-7b-chat/ggml-model-q4_0.bin",
n_gpu_layers=32, n_threads=6, n_ctx=3584, n_batch=521, verbose=True),
prompt = """[INST]
Name the planets in the solar system?
[/INST]
"""
output = llm(prompt, max_tokens=350, echo=True)
print(output['choices'][0]['text'].split('[/INST]')[-1])
- Меркурий
- Венера
- Земля
- Марс
- Юпитер
- Сатурн
- Уран
- Нептун
Обратите внимание, что Плутон ранее считался планетой, но теперь классифицируется как карликовая планета из-за его небольшого размера и уникальной орбиты.
Я также хочу сделать вывод с использованием графического процессора. Что не так?
Почему я не могу выполнить разгрузку на графический процессор, как указано в параметре n_gpu_layers=32, а также, как oobabooga text-generation-webui уже делает это без каких-либо проблем в той же среде miniconda ?
Подробнее здесь: https://stackoverflow.com/questions/769 ... a-gpu-cuda