Сначала я преобразовал данные PDF в Markdown, используя «PyMuPDF4LLM» и получив данные по разделам, а затем использовал PDFPlumber для извлечения таблиц для каждого PDF-файла. Получив данные, мы используем модель преобразователей предложений, чтобы найти похожий контент и сопоставить их, а затем используем библиотеку Difflib, чтобы найти разницу между ними. Как только мы получим эти различия, мы используем Pymupdf для обратного выделения в PDF. Как только часть выделения текста будет завершена, мы перейдем к таблицам. Мы используем PDFPlumber для получения таблиц, сравниваем каждую ячейку, находим различия и выделяем их обратно в PDF-файл.
Проблемы:
- Невозможно найти правильное вхождение изменения слова в предложении.
- При выделении таблиц трудно выделить ячейку при изменении в таблице. структура.
Подробнее здесь: https://stackoverflow.com/questions/793 ... ing-python
Мобильная версия