Pdfplumber не выбирает столбец и проблема с многострочными данными

Pdfplumber не выбирает столбец и проблема с многострочными данными ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pdfplumber не выбирает столбец и проблема с многострочными данными

Цитата

Сообщение Anonymous » 10 дек 2024, 02:10

Итак, я борюсь с двумя вещами с написанным мной сценарием извлечения PDF-файлов.
Во-первых, сценарий не считывает последний столбец «Серийный номер». '
Я выделил область, которая меня интересует, вместе с четкими линиями вертикальной стратегии, которые мне нужны
[img]https://i.sstatic. сеть/7smdO.png[/img]

Как видно на скриншоте, вертикальные линии аккуратно разделяют столбцы, и это верно на всех страницах PDF-файла. Область в рамке также фиксирует все, что я хочу, на всех страницах.
Мой сценарий находится здесь:

Код: Выделить всё

import pdfplumber

pdf_file = r"C:\Users\xxxx\Downloads\Active Aircraft Register.pdf"
box = (0, 35, 980, 565)
explicit_vertical_lines = [18, 57, 127, 325, 518, 713, 830, 920, 984]

all_tables = []

with pdfplumber.open(pdf_file) as pdf:
for page in pdf.pages:
cropped_page = page.crop(bbox=box)
table = cropped_page.extract_table(table_settings={
"vertical_strategy": "explicit",
"explicit_vertical_lines": explicit_vertical_lines,
"horizontal_strategy": "text",
})
if table:
all_tables.extend(table)

# Check if we have any tables extracted
if not all_tables:
print("No tables found in the PDF.")
else:
for row in all_tables[:10]:
print(row)

Вторая проблема заключается в том, что когда скрипт завершает извлечение, если в какой-либо строке есть многострочная ячейка (например, вариант адреса или типа), он затем помещает каждую строку отдельно с пробелом, есть ли способ уместить все это в одну строку?
Файл PDF, который я использую, можно скачать здесь, чтобы протестировать скрипт: https://www.caacayman.com/wp-content/up ... gister.pdf

Подробнее здесь: https://stackoverflow.com/questions/781 ... iline-data

1733785850

Anonymous

Итак, я борюсь с двумя вещами с написанным мной сценарием извлечения PDF-файлов.
Во-первых, сценарий не считывает последний столбец «Серийный номер». '
Я выделил область, которая меня интересует, вместе с четкими линиями вертикальной стратегии, которые мне нужны
[img]https://i.sstatic. сеть/7smdO.png[/img]

Как видно на скриншоте, вертикальные линии аккуратно разделяют столбцы, и это верно на всех страницах PDF-файла. Область в рамке также фиксирует все, что я хочу, на всех страницах.
Мой сценарий находится здесь:
[code]import pdfplumber

pdf_file = r"C:\Users\xxxx\Downloads\Active Aircraft Register.pdf"
box = (0, 35, 980, 565)
explicit_vertical_lines = [18, 57, 127, 325, 518, 713, 830, 920, 984]

all_tables = []

with pdfplumber.open(pdf_file) as pdf:
for page in pdf.pages:
cropped_page = page.crop(bbox=box)
table = cropped_page.extract_table(table_settings={
"vertical_strategy": "explicit",
"explicit_vertical_lines": explicit_vertical_lines,
"horizontal_strategy": "text",
})
if table:
all_tables.extend(table)

# Check if we have any tables extracted
if not all_tables:
print("No tables found in the PDF.")
else:
for row in all_tables[:10]:
print(row)
[/code]
Вторая проблема заключается в том, что когда скрипт завершает извлечение, если в какой-либо строке есть многострочная ячейка (например, вариант адреса или типа), он затем помещает каждую строку отдельно с пробелом, есть ли способ уместить все это в одну строку?
Файл PDF, который я использую, можно скачать здесь, чтобы протестировать скрипт: https://www.caacayman.com/wp-content/uploads/pdf/Active%20Aircraft%20Register.pdf
[img]https ://i.sstatic.net/ElbGx.jpg[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78115453/pdfplumber-not-picking-up-column-issue-with-multiline-data[/url]