Почему мой чат-бот LangChain RAG иногда пропускает релевантные фрагменты при семантическом поиске?Python

Программы на Python
Ответить
Anonymous
 Почему мой чат-бот LangChain RAG иногда пропускает релевантные фрагменты при семантическом поиске?

Сообщение Anonymous »

Я создал чат-бота RAG, используя встраивания LangChain + ChromaDB + OpenAI. Конвейер работает, но иногда чат-бот не возвращает наиболее релевантный PDF-контент, даже если он существует в векторной базе данных.
Фрагмент кода (упрощенный):

Код: Выделить всё

from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
db = Chroma(persist_directory="db", embedding_function=embeddings)

query = "What is the interest rate policy?"
docs = db.similarity_search(query, k=3)
Иногда он извлекает совершенно ненужные документы.
Что я проверил:
Часки были разделены на 500 токенов.
Вложения были созданы с помощью text-embedding-ada-002.
База данных сохраняется правильно.
Вопрос:
Может ли это быть быть связано с размером фрагмента, выбором модели внедрения или показателем сходства?
Как я могу повысить точность поиска?

Подробнее здесь: https://stackoverflow.com/questions/797 ... mantic-sea
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»