Как я могу получить одну таблицу со всех страниц PDF-файла, используя Python и pdfplumber? - Цифровое Кемерово

Как я могу получить одну таблицу со всех страниц PDF-файла, используя Python и pdfplumber? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как я могу получить одну таблицу со всех страниц PDF-файла, используя Python и pdfplumber?

Цитата

Сообщение Anonymous » 15 дек 2025, 20:19

Я пытаюсь получить все таблицы из моего PDF-файла.
У меня есть этот код, который правильно работает для чтения PDF-файлов, но он работает правильно только тогда, когда PDF-файл состоит из одной страницы. Если у него более одной страницы, он извлекает таблицу только с последней страницы.
Я хочу получить одну таблицу со всех страниц PDF-файла.
Не могли бы вы мне помочь?
import PyPDF2
import pandas as pd
import pdfplumber

file_path= r"C:\Users\path_where_I_have_my_pdf_files"
all_files = glob.glob(file_path + "/*.pdf")

tables =[]
for file in all_files:
file

with pdfplumber.open(file) as pdf:
for i in range(len(pdf.pages)):#pdf.pages[0]
page = pdf.pages
first_page = page.extract_table(table_settings={"vertical_strategy": "lines",
"horizontal_strategy": "text",})
file = os.path.basename(file)
if first_page:
df = pd.DataFrame(first_page[2:], columns=first_page[0])
df.to_excel('C:/Temp/test/'+str(file)+'.xlsx', index=False)

Подробнее здесь: https://stackoverflow.com/questions/798 ... thon-and-p

1765819183

Anonymous

Я пытаюсь получить все таблицы из моего PDF-файла.
У меня есть этот код, который правильно работает для чтения PDF-файлов, но он работает правильно только тогда, когда PDF-файл состоит из одной страницы. Если у него более одной страницы, он извлекает таблицу только с последней страницы.
Я хочу получить одну таблицу со всех страниц PDF-файла.
Не могли бы вы мне помочь?
import PyPDF2
import pandas as pd
import pdfplumber

file_path= r"C:\Users\path_where_I_have_my_pdf_files"
all_files = glob.glob(file_path + "/*.pdf")

tables =[]
for file in all_files:
file

with pdfplumber.open(file) as pdf:
for i in range(len(pdf.pages)):#pdf.pages[0]
page = pdf.pages[i]
first_page = page.extract_table(table_settings={"vertical_strategy": "lines",
"horizontal_strategy": "text",})
file = os.path.basename(file)
if first_page:
df = pd.DataFrame(first_page[2:], columns=first_page[0])
df.to_excel('C:/Temp/test/'+str(file)+'.xlsx', index=False)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79847886/how-can-i-get-a-single-table-from-all-the-pages-of-a-pdf-file-using-python-and-p[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»