Код: Выделить всё
all_data = []
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
table = page.extract_table()
if table:
filtered_table = table[5:] # Salta le intestazioni
header = [clean_text(h) for h in filtered_table[0]] # Pulisci l'intestazione
data = filtered_table[1:]
# Rimuovi righe vuote dalla tabella
data = [row for row in data if any(cell and cell.strip() for cell in row)]
# Appendi i dati della pagina all'elenco
all_data.extend(data)
if not all_data:
return
df = pd.DataFrame(all_data, columns=header)
df.dropna(how='all', inplace=True)
Тот, который работает:
Код: Выделить всё
%PDF-1.7
%����
7 0 obj
>
stream
Код: Выделить всё
%PDF-1.7
%����
1 0 obj
endobj
2 0 obj
endobj
3 0 obj
endobj
4 0 obj
endobj
5 0 obj
stream
Я экспортировал оба PDF-файла из Excel, знаю, это странно, но мне это нужно не просто так
Мне нужно, чтобы оба PDF-файла читались правильно.
Подробнее здесь: https://stackoverflow.com/questions/789 ... 1-doesnt-w