Как добавить потоковую передачу в мой чат-бот Gradio при использовании Python Llama cpp с langchain

Как добавить потоковую передачу в мой чат-бот Gradio при использовании Python Llama cpp с langchain ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как добавить потоковую передачу в мой чат-бот Gradio при использовании Python Llama cpp с langchain

Цитата

Сообщение Anonymous » 20 апр 2024, 10:17

Я интегрирую библиотеку Llama Cpp Pyhton для локального запуска LLM Huggingface. Я могу генерировать вывод текста, но я хотел бы добавить потоковую передачу в свой чат-бот, чтобы, как только генерация началась, градиент начал получать текст.
Llama Cpp Python: https://github.com/abetlen/llama-cpp-python
Вот мой код:

Код: Выделить всё

import os, torch, argparse
from threading import Thread
from typing import Optional

import gradio as gr
from llama_cpp import Llama
from src import quantize
from langchain import PromptTemplate, LLMChain
from langchain.llms.base import LLM
from langchain_community.llms import LlamaCpp
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_core.prompts import PromptTemplate
from core import list_download_models, remove_dir, default_repo_id, read_config, update_config
from modelsui import create_models_ui
import sys

def snapshot_download_and_convert_to_gguf(repo_id):
gguf_model_path = quantize.quantize_model(repo_id)
return gguf_model_path

def init_llm_chain(model_path):
llm = LlamaCpp(
model_path=model_path,
n_ctx=6000,
n_batch=30,
# temperature=0.9,
# max_tokens=4095,
n_parts=1,
callback_manager=callback_manager,
verbose=True)

template = """Question: {question}
Answer: Let's work this out in a step by step way to be sure we have the right answer."""

prompt = PromptTemplate.from_template(template)
llm_chain = prompt | llm
return llm_chain, llm

model_path = snapshot_download_and_convert_to_gguf(default_repo_id)
with gr.Blocks(css='style.css') as demo:
with gr.Tab("Chat"):
with gr.Row():
with gr.Column(scale=1):
with gr.Column(scale=4):
with gr.Group():
chatbot = gr.Chatbot(elem_id="chatbot-container")
msg = gr.Textbox(label="Prompt")
stop = gr.Button("Stop")

llm_chain, llm = init_llm_chain(model_path)

def user(user_message, history):
return "", history + [[user_message, None]]

def bot(history):
print("Question: ", history[-1][0])
output = llm_chain.invoke({"question": history[-1][0]})
print("stream:", output)
history[-1][1] = ""
for character in output:
print(character)
history[-1][1] += character
yield history

submit_event = msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(bot, chatbot, chatbot)

demo.queue()
demo.launch(server_name=args.host, server_port=args.port, share=args.share)

Я пытался создать потокового чат-бота, но ни один метод не помог.

Подробнее здесь: https://stackoverflow.com/questions/783 ... with-langc

1713597446

Anonymous

Я интегрирую библиотеку Llama Cpp Pyhton для локального запуска LLM Huggingface. Я могу генерировать вывод текста, но я хотел бы добавить потоковую передачу в свой чат-бот, чтобы, как только генерация началась, градиент начал получать текст. 
Llama Cpp Python: https://github.com/abetlen/llama-cpp-python
Вот мой код:
[code]import os, torch, argparse
from threading import Thread
from typing import Optional

import gradio as gr
from llama_cpp import Llama
from src import quantize
from langchain import PromptTemplate, LLMChain
from langchain.llms.base import LLM
from langchain_community.llms import LlamaCpp
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_core.prompts import PromptTemplate
from core import list_download_models, remove_dir, default_repo_id, read_config, update_config
from modelsui import create_models_ui
import sys

def snapshot_download_and_convert_to_gguf(repo_id):
gguf_model_path = quantize.quantize_model(repo_id)
return gguf_model_path

def init_llm_chain(model_path):
llm = LlamaCpp(
model_path=model_path,
n_ctx=6000,
n_batch=30,
# temperature=0.9,
# max_tokens=4095,
n_parts=1,
callback_manager=callback_manager,
verbose=True)

template = """Question: {question}
Answer: Let's work this out in a step by step way to be sure we have the right answer."""

prompt = PromptTemplate.from_template(template)
llm_chain = prompt | llm
return llm_chain, llm

model_path = snapshot_download_and_convert_to_gguf(default_repo_id)
with gr.Blocks(css='style.css') as demo:
with gr.Tab("Chat"):
with gr.Row():
with gr.Column(scale=1):
with gr.Column(scale=4):
with gr.Group():
chatbot = gr.Chatbot(elem_id="chatbot-container")
msg = gr.Textbox(label="Prompt")
stop = gr.Button("Stop")

llm_chain, llm = init_llm_chain(model_path)

def user(user_message, history):
return "", history + [[user_message, None]]

def bot(history):
print("Question: ", history[-1][0])
output = llm_chain.invoke({"question": history[-1][0]})
print("stream:", output)
history[-1][1] = ""
for character in output:
print(character)
history[-1][1] += character
yield history

submit_event = msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(bot, chatbot, chatbot)

demo.queue()
demo.launch(server_name=args.host, server_port=args.port, share=args.share)
[/code]
Я пытался создать потокового чат-бота, но ни один метод не помог.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78357335/how-to-add-streaming-to-my-gradio-chatbot-when-using-llama-cpp-pyhton-with-langc[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Чат-бот AWS Bedrock с Llama 3 повторяет всю историю разговора, а не просто отвечает

Последнее сообщение Anonymous « 04 ноя 2024, 14:56
Добавлено в форуме Python

Anonymous » 04 ноя 2024, 14:56 » в форуме Python

Я работаю над приложением чат-бота с использованием Amazon Bedrock и модели Llama 3. Я использую Streamlit для интерфейса и LangChain для управления разговором. Однако я столкнулся с проблемой, когда чат-бот повторяет всю историю разговора вместо...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 14:56
При попытке сделать снимок экрана и передать его в потоковую передачу в flask не обнаружено видео поддерживаемого формат

Последнее сообщение Anonymous « 26 ноя 2024, 18:44
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 18:44 » в форуме Python

Я пытаюсь записать видео своего крика и передать его на сервер Flask, но он возвращает ** Видео поддерживаемого формата и типа MIME не найдено

**

У меня есть два файла:
1- App.py -> для захвата потока

2- Index.html -> для потоковой передачи...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 18:44
Как мне эффективно обрабатывать потоковую передачу и обработку данных в реальном времени в Python? [закрыто]

Последнее сообщение Anonymous « 05 дек 2023, 17:36
Добавлено в форуме Python

Anonymous » 05 дек 2023, 17:36 » в форуме Python

В настоящее время я работаю над проектом, который включает обработку потоковых данных в реальном времени на Python, и ищу рекомендации по наиболее эффективным методам или библиотекам, доступным для обработки таких потоков данных. Данные, с которыми...

0 Ответы

53 Просмотры

Последнее сообщение Anonymous
05 дек 2023, 17:36
IOSinklush() прерывает потоковую передачу с устройства Bluetooth

Последнее сообщение Гость « 25 сен 2023, 15:53
Добавлено в форуме Android

Гость » 25 сен 2023, 15:53 » в форуме Android

Мы получаем данные каждые 0,01 секунды с URL-адреса устройства Bluetooth после того, как оно подписано, но IOSinklush() вызывает помехи, которые увеличивают интервал (0,2 секунды и т. д.). Есть идеи, что может быть причиной этого и/или будет ли...

0 Ответы

69 Просмотры

Последнее сообщение Гость
25 сен 2023, 15:53
Как поддерживать потоковую передачу на сайтах с помощью PyQt5? [закрыто]

Последнее сообщение Anonymous « 03 дек 2023, 04:37
Добавлено в форуме Python

Anonymous » 03 дек 2023, 04:37 » в форуме Python

Я создаю свой браузер, используя PyQt5. Я задаю себе вопрос: как мне сделать так, чтобы можно было смотреть видеопотоки на сайтах? Пробовал через vlc, но там нужно еще что-то скачать, потому что ошибка. Просто импортируйте vlc. Устанавливается через...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
03 дек 2023, 04:37

Вернуться в «Python»