https://www.seguridadaerea.gob.es/sites ... _inscritas. pdf
Я написал сценарий Python, который использует библиотеку pdfplumber для извлечения данных. Я обрезал страницу так, чтобы она фокусировалась только на строках данных, а не на всей информации верхнего и нижнего колонтитула. Скрипт показан ниже:
Код: Выделить всё
import pandas as pd
import pdfplumber
pdf_file = f"C:/Users/xxx/Downloads/aeronaves_inscritas.pdf"
box = (0, 132, 840, 555)
all_tables = []
with pdfplumber.open(pdf_file) as pdf:
for page in pdf.pages:
cropped_page = page.crop(bbox=box)
table = cropped_page.extract_table(table_settings={
"vertical_strategy": "lines",
"horizontal_strategy": "lines",
})
filtered_table = [row for row in table if ''.join([str(i) for i in row]) != '']
all_tables.extend(filtered_table)
df = pd.DataFrame(all_tables)
print(df.head())
df.to_csv('extracted_tables.csv', index=False)
Подробнее здесь: https://stackoverflow.com/questions/786 ... -page-docu