Как использовать постпроцессор сходства в LlamaIndex, чтобы предотвратить переполнение контекстного окна с помощью Gemin

Как использовать постпроцессор сходства в LlamaIndex, чтобы предотвратить переполнение контекстного окна с помощью Gemin ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как использовать постпроцессор сходства в LlamaIndex, чтобы предотвратить переполнение контекстного окна с помощью Gemin

Цитата

Сообщение Anonymous » 07 мар 2026, 14:39

Я использую LlamaIndex с Gemini-1.5-Flash для запроса большого набора правительственных документов. Я часто сталкиваюсь с ошибкой «Контекстное окно превышено», когда мой ретривер извлекает слишком много узлов для сложного запроса.
Я хочу реализовать NodePostprocessor для фильтрации узлов с низкими показателями релевантности перед их передачей в LLM для экономии контекстного пространства.

Код: Выделить всё

# I am using the default vector store index
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(similarity_top_k=5)

Как правильно интегрировать LikeityPostprocessor в мой query_engine, чтобы гарантировать, что для синтеза используются только узлы с оценкой выше 0,7? Существуют ли какие-либо другие рекомендуемые постпроцессоры специально для уменьшения количества токенов в LlamaIndex?

Подробнее здесь: https://stackoverflow.com/questions/799 ... ndow-overf

1772883574

Anonymous

Я использую [b]LlamaIndex[/b] с [b]Gemini-1.5-Flash[/b] для запроса большого набора правительственных документов. Я часто сталкиваюсь с ошибкой «Контекстное окно превышено», когда мой ретривер извлекает слишком много узлов для сложного запроса.
Я хочу реализовать [b]NodePostprocessor[/b] для фильтрации узлов с низкими показателями релевантности перед их передачей в LLM для экономии контекстного пространства.
[code]# I am using the default vector store index
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(similarity_top_k=5)
[/code]
Как правильно интегрировать LikeityPostprocessor в мой query_engine, чтобы гарантировать, что для синтеза используются только узлы с оценкой выше 0,7? Существуют ли какие-либо другие рекомендуемые постпроцессоры специально для уменьшения количества токенов в LlamaIndex? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79902770/how-to-use-similaritypostprocessor-in-llamaindex-to-prevent-context-window-overf[/url]

Ответить

1 сообщение • Страница 1 из 1