Я не могу контролировать клиент, так как я использую такие клиенты, как LibreChat или Open WebUI, для подключения к серверу MCP.
Например, в открытом веб-интерфейсе вы можете реализовать конвейер, поддерживающий потоковую передачу (по частям).
Вот минимальный пример моего использования случай:
Код: Выделить всё
from fastmcp import FastMCP
from llama_index.llms.lmstudio import LMStudio
import asyncio
mcp = FastMCP()
@mcp.tool()
async def story_teller(topic: str):
llm = LMStudio(model_name="qwen/qwen3-4b-2507")
prompt = f"Tell me a story about {topic}."
async for chunk in await llm.astream(prompt):
yield chunk
if __name__ == "__main__":
asyncio.run(mcp.run_async(host="0.0.0.0", port=8001, transport="streamable-http"))
Код: Выделить всё
Подробнее здесь: https://stackoverflow.com/questions/798 ... the-client
Мобильная версия