Выделение различий в тексте и таблице в PDF с помощью Python

Выделение различий в тексте и таблице в PDF с помощью Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Выделение различий в тексте и таблице в PDF с помощью Python

Цитата

Сообщение Anonymous » 17 янв 2025, 20:08

Постановка проблемы: у нас другая версия PDF-файла (разное содержимое, другая структура таблицы и т. д.), поэтому нам необходимо выделить все различия между текстом и таблицами.
Сначала я преобразовал данные PDF в Markdown, используя «PyMuPDF4LLM» и получив данные по разделам, а затем использовал PDFPlumber для извлечения таблиц для каждого PDF-файла. Получив данные, мы используем модель преобразователей предложений, чтобы найти похожий контент и сопоставить их, а затем используем библиотеку Difflib, чтобы найти разницу между ними. Как только мы получим эти различия, мы используем Pymupdf для обратного выделения в PDF. Как только часть выделения текста будет завершена, мы перейдем к таблицам. Мы используем PDFPlumber для получения таблиц, сравниваем каждую ячейку, находим различия и выделяем их обратно в PDF-файл.
Проблемы:

Невозможно найти правильное вхождение изменения слова в предложении.
При выделении таблиц трудно выделить ячейку при изменении в таблице. структура.

Подробнее здесь: https://stackoverflow.com/questions/793 ... ing-python

1737133687

Anonymous

Постановка проблемы: у нас другая версия PDF-файла (разное содержимое, другая структура таблицы и т. д.), поэтому нам необходимо выделить все различия между текстом и таблицами.
Сначала я преобразовал данные PDF в Markdown, используя «PyMuPDF4LLM» и получив данные по разделам, а затем использовал PDFPlumber для извлечения таблиц для каждого PDF-файла. Получив данные, мы используем модель преобразователей предложений, чтобы найти похожий контент и сопоставить их, а затем используем библиотеку Difflib, чтобы найти разницу между ними. Как только мы получим эти различия, мы используем Pymupdf для обратного выделения в PDF. Как только часть выделения текста будет завершена, мы перейдем к таблицам. Мы используем PDFPlumber для получения таблиц, сравниваем каждую ячейку, находим различия и выделяем их обратно в PDF-файл.
Проблемы:
[list]
[*]Невозможно найти правильное вхождение изменения слова в предложении.
[*]При выделении таблиц трудно выделить ячейку при изменении в таблице. структура.
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79365562/text-and-table-differences-highlight-on-pdf-using-python[/url]

Ответить

1 сообщение • Страница 1 из 1