Fastapi Endpoint Stream LLM Вывод Word Word Word - Цифровое Кемерово

Fastapi Endpoint Stream LLM Вывод Word Word Word ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Fastapi Endpoint Stream LLM Вывод Word Word Word

Цитата

Сообщение Anonymous » 06 авг 2025, 11:21

У меня есть конечная точка Fastapi (/generateStreamer), который генерирует ответы из модели LLM. Я хочу транслировать вывод, чтобы пользователи могли видеть текст по мере его создания, а не ждать полного ответа. В настоящее время я использую TextiteratortratorsTreamer из библиотеки Transformers и StreamingResponse от Fastapi, который работает, но когда я тестирую с Curl, ответ прибывает предложение по предложению, а не Word By Word. Я прочитал несколько тем темы по аналогичным вопросам, но ни одна из них не предлагает мне решение этой проблемы[email protected](
"/generateStreamer"
)
@api_version(1)
async def generateStreamer(features: InputFeatures, request: Request):
print("GenerateStreamer endpoint was called, generating response...")
tokenizer = request.app.state.tokenizer
model = request.app.state.model

messages = [
{"role": "system", "content": features.prompt.strip()},
{"role": "user", "content": features.text.strip()}
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

def generate():
torch.set_grad_enabled(False)
model.generate(
inputs['input_ids'],
streamer=streamer,
max_new_tokens=512,
num_return_sequences=1,
do_sample=True,
temperature=0.7,
repetition_penalty=1,
pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id,
top_p=1,
top_k=50
)

thread = Thread(target=generate)
thread.start()

return StreamingResponse(streamer, media_type="text/plain")

Подробнее здесь: https://stackoverflow.com/questions/797 ... d-for-word

1754468496

Anonymous

 У меня есть конечная точка Fastapi (/generateStreamer), который генерирует ответы из модели LLM. Я хочу транслировать вывод, чтобы пользователи могли видеть текст по мере его создания, а не ждать полного ответа. В настоящее время я использую TextiteratortratorsTreamer из библиотеки Transformers и StreamingResponse от Fastapi, который работает, но когда я тестирую с Curl, ответ прибывает предложение по предложению, а не Word By Word. Я прочитал несколько тем темы по аналогичным вопросам, но ни одна из них не предлагает мне решение этой проблемы[email protected](
"/generateStreamer"
)
@api_version(1)
async def generateStreamer(features: InputFeatures, request: Request):
print("GenerateStreamer endpoint was called, generating response...")
tokenizer = request.app.state.tokenizer
model = request.app.state.model

messages = [
{"role": "system", "content": features.prompt.strip()},
{"role": "user", "content": features.text.strip()}
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

def generate():
torch.set_grad_enabled(False)
model.generate(
inputs['input_ids'],
streamer=streamer,
max_new_tokens=512,
num_return_sequences=1,
do_sample=True,
temperature=0.7,
repetition_penalty=1,
pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id,
top_p=1,
top_k=50
)

thread = Thread(target=generate)
thread.start()

return StreamingResponse(streamer, media_type="text/plain")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79726988/fastapi-endpoint-stream-llm-output-word-for-word[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Fastapi Endpoint Stream LLM Вывод Word Word Word

Последнее сообщение Anonymous « 06 авг 2025, 11:21
Добавлено в форуме Python

Anonymous » 06 авг 2025, 11:21 » в форуме Python

У меня есть конечная точка Fastapi (/generateStreamer), который генерирует ответы из модели LLM. Я хочу транслировать вывод, чтобы пользователи могли видеть текст по мере его создания, а не ждать полного ответа. В настоящее время я использую...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 11:21
Fastapi Endpoint Stream LLM Вывод Word Word Word

Последнее сообщение Anonymous « 06 авг 2025, 13:25
Добавлено в форуме Python

Anonymous » 06 авг 2025, 13:25 » в форуме Python

У меня есть конечная точка Fastapi (/generateStreamer), который генерирует ответы из модели LLM. Я хочу транслировать вывод, чтобы пользователи могли видеть текст по мере его создания, а не ждать полного ответа. В настоящее время я использую...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 13:25
Fastapi Endpoint Stream LLM Вывод Word Word Word

Последнее сообщение Anonymous « 06 авг 2025, 15:32
Добавлено в форуме Python

Anonymous » 06 авг 2025, 15:32 » в форуме Python

У меня есть конечная точка Fastapi (/generateStreamer), который генерирует ответы из модели LLM. Я хочу транслировать вывод, чтобы пользователи могли видеть текст по мере его создания, а не ждать полного ответа. В настоящее время я использую...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 15:32
Fastapi Endpoint Stream LLM Вывод Word Word Word

Последнее сообщение Anonymous « 07 авг 2025, 13:52
Добавлено в форуме Python

Anonymous » 07 авг 2025, 13:52 » в форуме Python

У меня есть конечная точка Fastapi (/generateStreamer), который генерирует ответы из модели LLM. Я хочу транслировать вывод, чтобы пользователи могли видеть текст по мере его создания, а не ждать полного ответа. В настоящее время я использую...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
07 авг 2025, 13:52
Выполнение вывода LLM локально с помощью Python (LangChain/AutoGen/AutoMemGPT) с использованием модели LLM, размещенной

Последнее сообщение Anonymous « 05 дек 2024, 16:56
Добавлено в форуме Python

Anonymous » 05 дек 2024, 16:56 » в форуме Python

Я запускаю ehartford_dolphin-2.1-mistral-7b на машине RTX A6000 на RunPod с шаблоном TheBloke LLM Text Generation WebUI.
У меня есть 2 варианта: запуск webui на runpod или запуск шаблона вывода HuggingFace Text Generation на runpod
Вариант 1....

0 Ответы

60 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 16:56

Вернуться в «Python»