PDF Странное поведение сантехника. Два одинаковых PDF-файла: 1 работает, 1 не работает.

PDF Странное поведение сантехника. Два одинаковых PDF-файла: 1 работает, 1 не работает. ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

PDF Странное поведение сантехника. Два одинаковых PDF-файла: 1 работает, 1 не работает.

Цитата

Сообщение Anonymous » 16 ноя 2024, 20:07

У меня есть два PDF-файла, которые выглядят одинаково, и я хочу извлечь данные с помощью этой функции:

Код: Выделить всё

all_data = []

with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
table = page.extract_table()
if table:
filtered_table = table[5:]  # Salta le intestazioni
header = [clean_text(h) for h in filtered_table[0]]  # Pulisci l'intestazione
data = filtered_table[1:]

# Rimuovi righe vuote dalla tabella
data = [row for row in data if any(cell and cell.strip() for cell in row)]

# Appendi i dati della pagina all'elenco
all_data.extend(data)

if not all_data:

return

df = pd.DataFrame(all_data, columns=header)
df.dropna(how='all', inplace=True)

Когда я пытаюсь извлечь данные, этот код работает только для одного PDF-файла. Я открыл оба PDF-файла в Visual Studio Code, и в первых строках они выглядят по-разному.
Тот, который работает:

Код: Выделить всё

%PDF-1.7
%����
7 0 obj
>
stream

Тот, который не работает:

Код: Выделить всё

%PDF-1.7
%����
1 0 obj

endobj
2 0 obj

endobj
3 0 obj

endobj
4 0 obj

endobj
5 0 obj

stream

Мне нужно записать данные в Excel, и когда я записываю данные из второго PDF-файла, между данными в Excel появляется много двоичного кода.
Я экспортировал оба PDF-файла из Excel, знаю, это странно, но мне это нужно не просто так
Мне нужно, чтобы оба PDF-файла читались правильно.

Подробнее здесь: https://stackoverflow.com/questions/789 ... 1-doesnt-w

1731776826

Anonymous

У меня есть два PDF-файла, которые выглядят одинаково, и я хочу извлечь данные с помощью этой функции:
[code]all_data = []

with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
table = page.extract_table()
if table:
filtered_table = table[5:]  # Salta le intestazioni
header = [clean_text(h) for h in filtered_table[0]]  # Pulisci l'intestazione
data = filtered_table[1:]

# Rimuovi righe vuote dalla tabella
data = [row for row in data if any(cell and cell.strip() for cell in row)]

# Appendi i dati della pagina all'elenco
all_data.extend(data)

if not all_data:

return

df = pd.DataFrame(all_data, columns=header)
df.dropna(how='all', inplace=True)
[/code]
Когда я пытаюсь извлечь данные, этот код работает только для одного PDF-файла. Я открыл оба PDF-файла в Visual Studio Code, и в первых строках они выглядят по-разному.
Тот, который работает:
[code]%PDF-1.7
%����
7 0 obj
>
stream
[/code]
Тот, который не работает:
[code]%PDF-1.7
%����
1 0 obj

endobj
2 0 obj

endobj
3 0 obj

endobj
4 0 obj

endobj
5 0 obj

stream
[/code]
Мне нужно записать данные в Excel, и когда я записываю данные из второго PDF-файла, между данными в Excel появляется много двоичного кода.
Я экспортировал оба PDF-файла из Excel, знаю, это странно, но мне это нужно не просто так
Мне нужно, чтобы оба PDF-файла читались правильно. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78949588/pdf-plumber-strange-behaviour-two-pdf-that-are-the-same-1-work-and-1-doesnt-w[/url]