Потоковая передача текста с помощью Langchain Ollama через Flask в реальном времени

Потоковая передача текста с помощью Langchain Ollama через Flask в реальном времени ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Потоковая передача текста с помощью Langchain Ollama через Flask в реальном времени

Цитата

Сообщение Anonymous » 17 окт 2024, 20:40

В настоящее время я передаю выходные данные во внешний интерфейс через API Flask и использую Langchain с локальной моделью Ollama. Потоковая передача работает, и я получаю выходные данные во внешнем интерфейсе, но это очень медленно и сначала генерирует поток в консоли, а затем отправляет его во внешний интерфейс как поток событий.
Как мне создать текстовый поток поскольку он генерируется в реальном времени. Ниже мой код:
app.py:

Код: Выделить всё

@app.route('/search/')
def search(query):
def generate_stream(query):
retrieved_info = mservice.retrieve_knowlede(query)
for chunk in llm_service.query_knowledge(retrieved_info, final_query, model_name=Config.LLM.MODEL_NAME):
if chunk.startswith("{"):
yield f'data: {chunk}\n\n'
else:
lines = chunk.split('\n')
for line in lines:
if line.strip():  # Only send non-empty lines
yield f'data: {line}\n\n'
time.sleep(0.12)
yield ''

return Response(generate_stream(final_query),
mimetype='text/event-stream')

LLM_Service.py:

Код: Выделить всё

@retry(wait=wait_random_exponential(min=0.1, max=0.5), stop=stop_after_attempt(5), reraise=True)
def query_knowledge(self, retrieved_info: List[Dict], query: str, model_name: str) -> Generator[str, None, None]:
context = json.dumps(retrieved_info, indent=2)

# First, stream the answer
answer_stream = self._stream_answer(query, context, model_name)
# Use a Future to store the streamed answer

streamed_answer_future = Future()

# Yield from _combine_streams, which will set the result of streamed_answer_future
yield from self._combine_streams(answer_stream, streamed_answer_future)
# Now that we have the full streamed answer, generate the full JSON
json_future = self.executor.submit(self._generate_full_json, query, context, model_name,
streamed_answer_future.result())
# Yield the full JSON
yield json.dumps(json_future.result())

def _stream_answer(self, query: str, context: str, model_name: str) -> Generator[str, None, None]:
prompt_template = PromptTemplate(template=_get_answer_prompt(),input_variables=["query", "context"])
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
gpt_model = ChatOllama(model=model_name, temperature=self.config.LLM.TEMPERATURE, callbacks=callback_manager)
llm_chain = LLMChain(llm=gpt_model, prompt=prompt_template)
return llm_chain.stream({"query": query, "context": context})

Я даже пробовал напрямую вызвать функцию _answer_stream, но это не имеет никакого значения.

Подробнее здесь: https://stackoverflow.com/questions/790 ... n-realtime

1729186809

Anonymous

В настоящее время я передаю выходные данные во внешний интерфейс через API Flask и использую Langchain с локальной моделью Ollama. Потоковая передача работает, и я получаю выходные данные во внешнем интерфейсе, но это очень медленно и сначала генерирует поток в консоли, а затем отправляет его во внешний интерфейс как поток событий.
Как мне создать текстовый поток поскольку он генерируется в реальном времени. Ниже мой код:
app.py:
[code]@app.route('/search/')
def search(query):
def generate_stream(query):
retrieved_info = mservice.retrieve_knowlede(query)
for chunk in llm_service.query_knowledge(retrieved_info, final_query, model_name=Config.LLM.MODEL_NAME):
if chunk.startswith("{"):
yield f'data: {chunk}\n\n'
else:
lines = chunk.split('\n')
for line in lines:
if line.strip():  # Only send non-empty lines
yield f'data: {line}\n\n'
time.sleep(0.12)
yield ''

return Response(generate_stream(final_query),
mimetype='text/event-stream')
[/code]
LLM_Service.py:
[code]@retry(wait=wait_random_exponential(min=0.1, max=0.5), stop=stop_after_attempt(5), reraise=True)
def query_knowledge(self, retrieved_info: List[Dict], query: str, model_name: str) -> Generator[str, None, None]:
context = json.dumps(retrieved_info, indent=2)

# First, stream the answer
answer_stream = self._stream_answer(query, context, model_name)
# Use a Future to store the streamed answer

streamed_answer_future = Future()

# Yield from _combine_streams, which will set the result of streamed_answer_future
yield from self._combine_streams(answer_stream, streamed_answer_future)
# Now that we have the full streamed answer, generate the full JSON
json_future = self.executor.submit(self._generate_full_json, query, context, model_name,
streamed_answer_future.result())
# Yield the full JSON
yield json.dumps(json_future.result())

def _stream_answer(self, query: str, context: str, model_name: str) -> Generator[str, None, None]:
prompt_template = PromptTemplate(template=_get_answer_prompt(),input_variables=["query", "context"])
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
gpt_model = ChatOllama(model=model_name, temperature=self.config.LLM.TEMPERATURE, callbacks=callback_manager)
llm_chain = LLMChain(llm=gpt_model, prompt=prompt_template)
return llm_chain.stream({"query": query, "context": context})
[/code]
Я даже пробовал напрямую вызвать функцию _answer_stream, но это не имеет никакого значения. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79097171/text-streaming-with-langchain-ollama-via-flask-in-realtime[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Потоковая передача текста с помощью Langchain Ollama через Flask в реальном времени

Последнее сообщение Anonymous « 17 окт 2024, 12:00
Добавлено в форуме Python

Anonymous » 17 окт 2024, 12:00 » в форуме Python

В настоящее время я передаю выходные данные во внешний интерфейс через API Flask и использую Langchain с локальной моделью Ollama. Потоковая передача работает, и я получаю выходные данные во внешнем интерфейсе, но это очень медленно и сначала...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 12:00
Потоковая передача результатов ChatGPT с помощью Flask и LangChain

Последнее сообщение Anonymous « 22 ноя 2024, 11:16
Добавлено в форуме Python

Anonymous » 22 ноя 2024, 11:16 » в форуме Python

По сути, я хочу добиться этого с помощью Flask и LangChain: x8uwwLNxqis .
Я создаю приложение Q&A Flask, которое использует LangChain в серверной части, но у меня возникли проблемы с потоковой передачей ответа от ChatGPT. Моя цепочка выглядит так:...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
22 ноя 2024, 11:16
Потоковая потоковая передача видео с камеры FLIR с помощью Python

Последнее сообщение Anonymous « 15 мар 2025, 23:05
Добавлено в форуме Python

Anonymous » 15 мар 2025, 23:05 » в форуме Python

У меня проблемы с потоковой передачей от Flir Grasshopper3 до OpenCV. Есть ли способ транслировать непосредственно от камеры FLIR в мой код с помощью Python? Когда я использую приведенный ниже код, CV.VideoCapture не может распознать камеру FLIR в...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 23:05
Весна Ai Ollama Streaming Change: не потоковая передача токенов за токен

Последнее сообщение Anonymous « 20 июн 2025, 18:31
Добавлено в форуме JAVA

Anonymous » 20 июн 2025, 18:31 » в форуме JAVA

Я пытаюсь настроить приложение потокового чата, используя Spring Ai Whit Ollama . Я хочу получить потоковую реакцию с токеном от моего весеннего приложения, но вывод был всего лишь предложением. Я не знаю причину и как это исправить. # Ollama...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
20 июн 2025, 18:31
Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Последнее сообщение Anonymous « 20 авг 2025, 09:32
Добавлено в форуме Python

Anonymous » 20 авг 2025, 09:32 » в форуме Python

Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти:
import os ; os.environ = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 09:32

Вернуться в «Python»