Pdfplumber не может обнаружить край таблицы, что приводит к проблемам с извлечением

Pdfplumber не может обнаружить край таблицы, что приводит к проблемам с извлечением ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pdfplumber не может обнаружить край таблицы, что приводит к проблемам с извлечением

Цитата

Сообщение Anonymous » 25 ноя 2024, 19:50

У меня есть образец медицинского заключения, и вверху каждой страницы в формате pdf есть таблица, содержащая личную информацию.
Я пытался удалить/обрезать таблицу личной информации из этого образца sample_pdf со всех страниц, найдя layout значения таблицы. Я новичок в pdfplumber и не уверен, что это правильный подход, но ниже приведен код, который я пробовал, и я не могу получить значения макета таблицы, даже если я могу получить красный цвет ящик на столе с помощью pdfplumber.
Код, который я пробовал:

Код: Выделить всё

sample_data = []
sample_path = r"local_path_file"

with pdfplumber.open(sample_path) as pdf:
pages = pdf.pages
for p in pages:
sample_data.append(p.extract_tables())

print(sample_data)

Код: Выделить всё

pages[0].to_image()

Я можно идентифицировать первую таблицу из нее, используя приведенный ниже код

Код: Выделить всё

pages[0].to_image().debug_tablefinder()

Теперь, когда Я пытаюсь извлечь таблицы с помощью приведенного ниже кода, но ничего не получаю

Код: Выделить всё

with pdfplumber.open(sample_path) as pdf:
pages = pdf.pages[0]
print(pages.extract_tables())

вывод: []
Буду очень признателен за любую помощь.

Подробнее здесь: https://stackoverflow.com/questions/792 ... ion-issues

1732553437

Anonymous

У меня есть образец медицинского заключения, и [b]вверху каждой страницы[/b] в формате pdf есть [b]таблица[/b], содержащая личную информацию.
Я пытался [b]удалить/обрезать[/b] [b]таблицу[/b] личной информации из этого образца [b]sample_pdf[/b] со всех страниц, найдя [b]layout[/b] значения [b]таблицы[/b]. Я новичок в pdfplumber и не уверен, что это правильный подход, но ниже приведен код, который я пробовал, и я не могу получить значения макета таблицы, даже если я могу получить красный цвет ящик на столе с помощью pdfplumber.
Код, который я пробовал:
[code]sample_data = []
sample_path = r"local_path_file"

with pdfplumber.open(sample_path) as pdf:
pages = pdf.pages
for p in pages:
sample_data.append(p.extract_tables())

print(sample_data)
[/code]
[code]pages[0].to_image()
[/code]
[img]https://i.sstatic.net/XCp1J4cg.png[/img]

Я можно идентифицировать первую таблицу из нее, используя приведенный ниже код
[code]pages[0].to_image().debug_tablefinder()
[/code]
[img]https://i.sstatic.net/wjvM92yY.png[/img]

Теперь, когда Я пытаюсь извлечь таблицы с помощью приведенного ниже кода, но ничего не получаю
[code]with pdfplumber.open(sample_path) as pdf:
pages = pdf.pages[0]
print(pages.extract_tables())
[/code]
[b]вывод:[/b] []
Буду очень признателен за любую помощь. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79218490/pdfplumber-fails-to-detect-table-edge-causing-extraction-issues[/url]