Почему мой чат-бот LangChain RAG иногда пропускает релевантные фрагменты при семантическом поиске? - Цифровое Кемерово

Почему мой чат-бот LangChain RAG иногда пропускает релевантные фрагменты при семантическом поиске? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Почему мой чат-бот LangChain RAG иногда пропускает релевантные фрагменты при семантическом поиске?

Цитата

Сообщение Anonymous » 19 фев 2026, 19:47

Я создал чат-бота RAG, используя встраивания LangChain + ChromaDB + OpenAI. Конвейер работает, но иногда чат-бот не возвращает наиболее релевантный PDF-контент, даже если он существует в векторной базе данных.
Фрагмент кода (упрощенный):

Код: Выделить всё

from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
db = Chroma(persist_directory="db", embedding_function=embeddings)

query = "What is the interest rate policy?"
docs = db.similarity_search(query, k=3)

Иногда он извлекает совершенно ненужные документы.
Что я проверил:
Часки были разделены на 500 токенов.
Вложения были созданы с помощью text-embedding-ada-002.
База данных сохраняется правильно.
Вопрос:
Может ли это быть быть связано с размером фрагмента, выбором модели внедрения или показателем сходства?
Как я могу повысить точность поиска?

Подробнее здесь: https://stackoverflow.com/questions/797 ... mantic-sea

1771519657

Anonymous

Я создал чат-бота RAG, используя встраивания LangChain + ChromaDB + OpenAI. Конвейер работает, но иногда чат-бот не возвращает наиболее релевантный PDF-контент, даже если он существует в векторной базе данных.
Фрагмент кода (упрощенный):
[code]from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
db = Chroma(persist_directory="db", embedding_function=embeddings)

query = "What is the interest rate policy?"
docs = db.similarity_search(query, k=3)
[/code]
Иногда он извлекает совершенно ненужные документы.
Что я проверил:
Часки были разделены на 500 токенов.
Вложения были созданы с помощью text-embedding-ada-002.
База данных сохраняется правильно.
Вопрос:
Может ли это быть быть связано с размером фрагмента, выбором модели внедрения или показателем сходства?
Как я могу повысить точность поиска? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79770940/why-does-my-langchain-rag-chatbot-sometimes-miss-relevant-chunks-in-semantic-sea[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»