Фрагмент кода (упрощенный):
Код: Выделить всё
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()
db = Chroma(persist_directory="db", embedding_function=embeddings)
query = "What is the interest rate policy?"
docs = db.similarity_search(query, k=3)
Что я проверил:
Часки были разделены на 500 токенов.
Вложения были созданы с помощью text-embedding-ada-002.
База данных сохраняется правильно.
Вопрос:
Может ли это быть быть связано с размером фрагмента, выбором модели внедрения или показателем сходства?
Как я могу повысить точность поиска?
Подробнее здесь: https://stackoverflow.com/questions/797 ... mantic-sea
Мобильная версия