Pdfplumber извлекает только первую строку данных каждой страницы в более чем 300-страничном документе

Pdfplumber извлекает только первую строку данных каждой страницы в более чем 300-страничном документе ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pdfplumber извлекает только первую строку данных каждой страницы в более чем 300-страничном документе

Цитата

Сообщение Anonymous » 03 дек 2024, 22:29

Я пытаюсь извлечь все строки данных из следующего PDF-файла:
https://www.seguridadaerea.gob.es/sites ... _inscritas. pdf
Я написал сценарий Python, который использует библиотеку pdfplumber для извлечения данных. Я обрезал страницу так, чтобы она фокусировалась только на строках данных, а не на всей информации верхнего и нижнего колонтитула. Скрипт показан ниже:

Код: Выделить всё

import pandas as pd
import pdfplumber

pdf_file = f"C:/Users/xxx/Downloads/aeronaves_inscritas.pdf"

box = (0, 132, 840, 555)

all_tables = []

with pdfplumber.open(pdf_file) as pdf:
for page in pdf.pages:
cropped_page = page.crop(bbox=box)

table = cropped_page.extract_table(table_settings={
"vertical_strategy": "lines",
"horizontal_strategy": "lines",
})

filtered_table = [row for row in table if ''.join([str(i) for i in row]) != '']

all_tables.extend(filtered_table)

df = pd.DataFrame(all_tables)

print(df.head())

df.to_csv('extracted_tables.csv', index=False)

Проблема, с которой я столкнулся со сценарием, заключается в том, что он извлекает только первую строку каждой страницы, и я просто не могу понять, почему. Может ли кто-нибудь помочь мне понять, почему? Я пробовал использовать другие библиотеки извлечения PDF-файлов в Python, но они, похоже, не так аккуратно извлекают строки данных, как это делает pdfplumber.

Подробнее здесь: https://stackoverflow.com/questions/786 ... -page-docu

1733254173

Anonymous

Я пытаюсь извлечь все строки данных из следующего PDF-файла:
https://www.seguridadaerea.gob.es/sites/default/files/aeronaves_inscritas. pdf
Я написал сценарий Python, который использует библиотеку pdfplumber для извлечения данных. Я обрезал страницу так, чтобы она фокусировалась только на строках данных, а не на всей информации верхнего и нижнего колонтитула. Скрипт показан ниже:
[code]import pandas as pd
import pdfplumber

pdf_file = f"C:/Users/xxx/Downloads/aeronaves_inscritas.pdf"

box = (0, 132, 840, 555)

all_tables = []

with pdfplumber.open(pdf_file) as pdf:
for page in pdf.pages:
cropped_page = page.crop(bbox=box)

table = cropped_page.extract_table(table_settings={
"vertical_strategy": "lines",
"horizontal_strategy": "lines",
})

filtered_table = [row for row in table if ''.join([str(i) for i in row]) != '']

all_tables.extend(filtered_table)

df = pd.DataFrame(all_tables)

print(df.head())

df.to_csv('extracted_tables.csv', index=False)
[/code]
Проблема, с которой я столкнулся со сценарием, заключается в том, что он извлекает только первую строку каждой страницы, и я просто не могу понять, почему. Может ли кто-нибудь помочь мне понять, почему? Я пробовал использовать другие библиотеки извлечения PDF-файлов в Python, но они, похоже, не так аккуратно извлекают строки данных, как это делает pdfplumber. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78643159/pdfplumber-only-extracting-the-first-row-of-data-of-every-page-in-300-page-docu[/url]