Как получить ограничительные коробки (Bbox) для кусков в тряпичном трубопроводе, чтобы выделить 5 лучших кусков в докуме

Как получить ограничительные коробки (Bbox) для кусков в тряпичном трубопроводе, чтобы выделить 5 лучших кусков в докуме ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как получить ограничительные коробки (Bbox) для кусков в тряпичном трубопроводе, чтобы выделить 5 лучших кусков в докуме

Цитата

Сообщение Anonymous » 24 янв 2025, 17:53

Я работаю над конвейером RAG (генерация с расширенным поиском), где сначала предварительно обрабатываю PDF-документ и разбиваю его на фрагменты. При запуске процесса RAG я извлекаю 5 верхних фрагментов и генерирую ответ. Чтобы обеспечить контекст, я хочу выделить эти 5 фрагментов в исходном PDF-документе.
Я использую библиотеку pdf.js во внешнем интерфейсе, которая технически может выделять текст, но я Я столкнулся с двумя проблемами:
Как соединить ограничивающие рамки с частями после разделения PDF-файла?
Как справиться с ситуациями, когда ограничивающие рамки перекрываются на страницах?
Для контекста я использую Haystack AI и Python для конвейера RAG. Любая информация о том, как извлечь ограничивающие рамки для этих фрагментов, будет очень полезна!
Мой код предварительной обработки
import json
import os
from pathlib import Path

from haystack import Pipeline
from haystack.components.converters import PyPDFToDocument
from haystack.components.embedders import SentenceTransformersDocumentEmbedder
from haystack.components.preprocessors import (
DocumentCleaner,
NLTKDocumentSplitter,
)
from haystack.components.writers import DocumentWriter
from haystack.document_stores.types import DuplicatePolicy
from haystack_integrations.components.embedders.fastembed import (
FastembedSparseDocumentEmbedder,
)
from haystack_integrations.document_stores.qdrant import QdrantDocumentStore
from utils.process_dataset import load_pdfs_config

document_store = QdrantDocumentStore(
":memory:",
use_sparse_embeddings=True,
recreate_index=True,
embedding_dim=1024, # based on the embedding model
return_embedding=False,
wait_result_from_api=True,
)

indexing_pipeline = Pipeline()
indexing_pipeline.add_component("converter", PyPDFToDocument())
indexing_pipeline.add_component("cleaner", DocumentCleaner())
indexing_pipeline.add_component(
"splitter",
NLTKDocumentSplitter(
split_by="word",
respect_sentence_boundary=False,
split_length=200,
split_overlap=40,
),
)

indexing_pipeline.add_component(
"sparse_doc_embedder", FastembedSparseDocumentEmbedder(model="Qdrant/bm25")
)
indexing_pipeline.add_component(
"dense_doc_embedder",
SentenceTransformersDocumentEmbedder(
model="intfloat/multilingual-e5-large-instruct"
),
)
indexing_pipeline.add_component(
"writer",
DocumentWriter(document_store=document_store, policy=DuplicatePolicy.OVERWRITE),
)

indexing_pipeline.connect("converter", "splitter")

indexing_pipeline.connect("splitter", "sparse_doc_embedder")
indexing_pipeline.connect("sparse_doc_embedder", "dense_doc_embedder")
indexing_pipeline.connect("dense_doc_embedder", "writer")

Подробнее здесь: https://stackoverflow.com/questions/793 ... ight-top-5

1737730403

Anonymous

Я работаю над конвейером RAG (генерация с расширенным поиском), где сначала предварительно обрабатываю PDF-документ и разбиваю его на фрагменты. При запуске процесса RAG я извлекаю 5 верхних фрагментов и генерирую ответ. Чтобы обеспечить контекст, я хочу выделить эти 5 фрагментов в исходном PDF-документе.
Я использую библиотеку pdf.js во внешнем интерфейсе, которая технически может выделять текст, но я Я столкнулся с двумя проблемами:
Как соединить ограничивающие рамки с частями после разделения PDF-файла?
Как справиться с ситуациями, когда ограничивающие рамки перекрываются на страницах?
Для контекста я использую Haystack AI и Python для конвейера RAG. Любая информация о том, как извлечь ограничивающие рамки для этих фрагментов, будет очень полезна!
Мой код предварительной обработки
import json
import os
from pathlib import Path

from haystack import Pipeline
from haystack.components.converters import PyPDFToDocument
from haystack.components.embedders import SentenceTransformersDocumentEmbedder
from haystack.components.preprocessors import (
DocumentCleaner,
NLTKDocumentSplitter,
)
from haystack.components.writers import DocumentWriter
from haystack.document_stores.types import DuplicatePolicy
from haystack_integrations.components.embedders.fastembed import (
FastembedSparseDocumentEmbedder,
)
from haystack_integrations.document_stores.qdrant import QdrantDocumentStore
from utils.process_dataset import load_pdfs_config

document_store = QdrantDocumentStore(
":memory:",
use_sparse_embeddings=True,
recreate_index=True,
embedding_dim=1024,  # based on the embedding model
return_embedding=False,
wait_result_from_api=True,
)

indexing_pipeline = Pipeline()
indexing_pipeline.add_component("converter", PyPDFToDocument())
indexing_pipeline.add_component("cleaner", DocumentCleaner())
indexing_pipeline.add_component(
"splitter",
NLTKDocumentSplitter(
split_by="word",
respect_sentence_boundary=False,
split_length=200,
split_overlap=40,
),
)

indexing_pipeline.add_component(
"sparse_doc_embedder", FastembedSparseDocumentEmbedder(model="Qdrant/bm25")
)
indexing_pipeline.add_component(
"dense_doc_embedder",
SentenceTransformersDocumentEmbedder(
model="intfloat/multilingual-e5-large-instruct"
),
)
indexing_pipeline.add_component(
"writer",
DocumentWriter(document_store=document_store, policy=DuplicatePolicy.OVERWRITE),
)

indexing_pipeline.connect("converter", "splitter")

indexing_pipeline.connect("splitter", "sparse_doc_embedder")
indexing_pipeline.connect("sparse_doc_embedder", "dense_doc_embedder")
indexing_pipeline.connect("dense_doc_embedder", "writer")

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79384741/how-to-get-bounding-boxes-bbox-for-chunks-in-a-rag-pipeline-to-highlight-top-5[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как получить ограничительные коробки (Bbox) для кусков в тряпичном трубопроводе, чтобы выделить 5 лучших кусков в докуме

Последнее сообщение Anonymous « 26 янв 2025, 11:29
Добавлено в форуме Python

Anonymous » 26 янв 2025, 11:29 » в форуме Python

Я работаю над конвейером RAG (генерация с расширенным поиском), где сначала предварительно обрабатываю PDF-документ и разбиваю его на фрагменты. При запуске процесса RAG я извлекаю 5 верхних фрагментов и генерирую ответ. Чтобы обеспечить контекст, я...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
26 янв 2025, 11:29
Как получить ограничивающие рамки (BBox) для блоков в конвейере RAG, чтобы выделить 5 самых популярных фрагментов в PDF-

Последнее сообщение Anonymous « 24 янв 2025, 21:46
Добавлено в форуме Python

Anonymous » 24 янв 2025, 21:46 » в форуме Python

Я работаю над трубопроводом с тряпкой (извлеченным августом), где я сначала предварительно предварительно обрабатываю документ PDF и разделяю его на куски. При запуске процесса тряпки я получаю 5 лучших кусков и создаю ответ. Чтобы предоставить...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 21:46
Я получаю это сообщение в WAMP: вы, вероятно, попытались загрузить слишком большой файл. Пожалуйста, обратитесь к докуме

Последнее сообщение Anonymous « 25 июн 2025, 15:48
Добавлено в форуме Php

Anonymous » 25 июн 2025, 15:48 » в форуме Php

Я пытаюсь импортировать базу данных SQL в базу данных MySQL. Я продолжаю получать это сообщение,
Вы, вероятно, попытались загрузить слишком большой файл. Пожалуйста, обратитесь к документации для обходного пути для этого предела.
и не удалось...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
25 июн 2025, 15:48
Ограничительные рамки обнаружения объектов с использованием yolov5s и onnx на ml.net

Последнее сообщение Anonymous « 29 апр 2024, 04:19
Добавлено в форуме C#

Anonymous » 29 апр 2024, 04:19 » в форуме C#

Я знаю, прошло много времени. Я также использую yolov5 с MAUI, но в форме ONNX. У меня нет проблем с получением прогнозов, но проблема в ограничивающих рамках, которые находятся далеко от них.
Моя модель имеет входное значение 1,3,640,640 и выходное...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
29 апр 2024, 04:19
Как эффективно преобразовать данные макета JSON, представляющие ограничительные ящики и текстовое содержание в структурн

Последнее сообщение Anonymous « 16 июн 2025, 08:29
Добавлено в форуме Html

Anonymous » 16 июн 2025, 08:29 » в форуме Html

Я создавал проект создания дизайна веб -страницы с изображения этой страницы. Большая часть приложения для этой цели использует ИИ, но я не использую их. Я пошел на полный необработанный подход с компьютерным зрением. Я обнаружил текст из...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
16 июн 2025, 08:29

Вернуться в «Python»