Выделение различий в тексте и таблице в PDF с помощью PythonPython

Программы на Python
Ответить
Anonymous
 Выделение различий в тексте и таблице в PDF с помощью Python

Сообщение Anonymous »

Постановка проблемы: у нас другая версия PDF-файла (разное содержимое, другая структура таблицы и т. д.), поэтому нам необходимо выделить все различия между текстом и таблицами.
Сначала я преобразовал данные PDF в Markdown, используя «PyMuPDF4LLM» и получив данные по разделам, а затем использовал PDFPlumber для извлечения таблиц для каждого PDF-файла. Получив данные, мы используем модель преобразователей предложений, чтобы найти похожий контент и сопоставить их, а затем используем библиотеку Difflib, чтобы найти разницу между ними. Как только мы получим эти различия, мы используем Pymupdf для обратного выделения в PDF. Как только часть выделения текста будет завершена, мы перейдем к таблицам. Мы используем PDFPlumber для получения таблиц, сравниваем каждую ячейку, находим различия и выделяем их обратно в PDF-файл.
Проблемы:
  • Невозможно найти правильное вхождение изменения слова в предложении.
  • При выделении таблиц трудно выделить ячейку при изменении в таблице. структура.


Подробнее здесь: https://stackoverflow.com/questions/793 ... ing-python
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»