Я использую
LlamaIndex с
Gemini-1.5-Flash для запроса большого набора правительственных документов. Я часто сталкиваюсь с ошибкой «Контекстное окно превышено», когда мой ретривер извлекает слишком много узлов для сложного запроса.
Я хочу реализовать
NodePostprocessor для фильтрации узлов с низкими показателями релевантности перед их передачей в LLM для экономии контекстного пространства.
Код: Выделить всё
# I am using the default vector store index
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(similarity_top_k=5)
Как правильно интегрировать LikeityPostprocessor в мой query_engine, чтобы гарантировать, что для синтеза используются только узлы с оценкой выше 0,7? Существуют ли какие-либо другие рекомендуемые постпроцессоры специально для уменьшения количества токенов в LlamaIndex?
Подробнее здесь:
https://stackoverflow.com/questions/799 ... ndow-overf