Я создал приложение RAG, которое в основном отвечает на вопросы пользователей на основе предоставленных данных. Оно отлично работает как на графическом процессоре, так и на одном графическом процессоре. Я хочу развернуть его на нескольких графических процессорах (4 T4), но в конвейере всегда возникает ошибка CUDA out of Memory.
Я тоже пробовал использовать ключевое слово «auto», но Langchain не позволяет мне использовать это ключевое слово.
Я использовал Langchain в качестве основной платформы, мой код выглядит так:
from langchain_huggingface import ChatHuggingFace, HuggingFacePipeline, HuggingFaceEmbeddings
MODEL_NAME="mistralai/Mistral-7B-Instruct-v0.3"
pipe = HuggingFacePipeline.from_model_id(
model_id=MODEL_NAME,
device=0,
model_kwargs={"torch_dtype":torch.float16},
task="text-generation")
llm = ChatHuggingFace(llm=pipe)
embedding = HuggingFaceEmbeddings(model_name=MODEL_NAME,
model_kwargs={"device":"cuda:1"},
multi_process=True,
)
Подробнее здесь: https://stackoverflow.com/questions/786 ... tiple-gpus
Конвейер HuggingFace не использует несколько графических процессоров ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение