Проблема с извлечением текста и таблиц из PDF в Python

Проблема с извлечением текста и таблиц из PDF в Python ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Проблема с извлечением текста и таблиц из PDF в Python

Цитата

Сообщение Anonymous » 13 янв 2025, 15:15

У меня их много, и мне нужно их все обработать.
Документ может содержать данные (текстовые данные и таблицы) в тексте, изображении, метаданных.
Таблицы имеют глубокую структуру, столбцы имеют подстолбцы, строки имеют подстроки.
В случае данных в виде изображений распознавание текста не работает, поскольку в них находится текст. изображение нечеткое и слишком маленькое.
Структура таблицы может различаться в зависимости от листа, поэтому жесткое привязывание значений невозможно.
Текст из ячейки таблицы может быть вертикальным, горизонтальным, диагональным или все вместе.

Я попробовал несколько вариантов:

PDFPlummer: требуются ручные координаты границ таблицы. , поскольку в некоторых PDF-документах нет вертикальных линий в начале и конце таблицы.
LLAMAPARSE: он не может извлечь глубокую структуру таблицы и является услугой премиум-класса.< /li>
Markitdown: извлекает данные. в формате уценки, но с очень плохой структурой.
Табула: та же проблема, таблица не извлекается должным образом.
OCR (тессеракт): опять же, проблема здесь в глубокой структуре таблицы

Подробнее здесь: https://stackoverflow.com/questions/793 ... -in-python

1736770556

Anonymous

Я создаю серверную часть Python, из которой хочу извлечь табличные и текстовые данные из PDF. Сложная часть заключается в том, что в формате PDF можно объединить таблицу и текст, таблица глубоко вложена с вертикальным/горизонтальным текстом. PDF-файл может содержать текстовые данные, или изображение(изображение текстов), или метаданные.
Я хочу точно извлечь все данные без ручного вмешательства.
Некоторые подробности о PDF-файле документы:-
[list]
[*]У меня их много, и мне нужно их все обработать.
[*]Документ может содержать данные (текстовые данные и таблицы) в тексте, изображении, метаданных.
[*]Таблицы имеют глубокую структуру, столбцы имеют подстолбцы, строки имеют подстроки.
[*]В случае данных в виде изображений распознавание текста не работает, поскольку в них находится текст. изображение нечеткое и слишком маленькое.
[*]Структура таблицы может различаться в зависимости от листа, поэтому жесткое привязывание значений невозможно.
[*]Текст из ячейки таблицы может быть вертикальным, горизонтальным, диагональным или все вместе.
[/list]
Я попробовал несколько вариантов:
[list]
[*]PDFPlummer: требуются ручные координаты границ таблицы. , поскольку в некоторых PDF-документах нет вертикальных линий в начале и конце таблицы.
[*]LLAMAPARSE: он не может извлечь глубокую структуру таблицы и является услугой премиум-класса.< /li>
Markitdown: извлекает данные. в формате уценки, но с очень плохой структурой.
[*]Табула: та же проблема, таблица не извлекается должным образом.
[*]OCR (тессеракт): опять же, проблема здесь в глубокой структуре таблицы
[/list]

Подробнее здесь: [url]https://stackoverflow.com/questions/79352152/issue-in-extracting-text-and-tables-from-pdf-in-python[/url]