Лучшие модели/библиотеки Python для извлечения таблиц из PDF-файлов

Лучшие модели/библиотеки Python для извлечения таблиц из PDF-файлов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Лучшие модели/библиотеки Python для извлечения таблиц из PDF-файлов

Цитата

Сообщение Anonymous » 29 дек 2024, 11:18

У меня есть несколько PDF-файлов, из которых я хочу извлечь данные таблицы.
Но проблема в том, что таблица многостраничная, я хочу обнаружить эту многостраничную таблицу и сделать ее единой.
. Кроме того, в одном PDF-файле есть несколько таблиц, поэтому их не следует смешивать.
Привет!
Я я ищу модели, которые могут помочь в извлечении данных таблицы из PDF.
Я попробовал Azure Document Intelligence, но он не дал ожидаемых результатов.
Вот точные требования:
a) Возможность обнаружения нескольких таблицы и иметь возможность присваивать идентификатор каждой таблице для их группировки.
b) Одна таблица может быть многостраничной, поэтому модель должна иметь возможность это обнаружить.
в) Возможность обнаружения всех столбцов таблицы

Подробнее здесь: https://stackoverflow.com/questions/793 ... -from-pdfs

1735460309

Anonymous

У меня есть несколько PDF-файлов, из которых я хочу извлечь данные таблицы.
Но проблема в том, что таблица многостраничная, я хочу обнаружить эту многостраничную таблицу и сделать ее единой. 
. Кроме того, в одном PDF-файле есть несколько таблиц, поэтому их не следует смешивать.
Привет!
Я я ищу модели, которые могут помочь в извлечении данных таблицы из PDF.
Я попробовал Azure Document Intelligence, но он не дал ожидаемых результатов.
Вот точные требования:
a) Возможность обнаружения нескольких таблицы и иметь возможность присваивать идентификатор каждой таблице для их группировки.
b) Одна таблица может быть многостраничной, поэтому модель должна иметь возможность это обнаружить.
в) Возможность обнаружения всех столбцов таблицы 

Подробнее здесь: [url]https://stackoverflow.com/questions/79315181/best-python-models-libraries-to-extract-tables-from-pdfs[/url]