Как извлечь из PDF-файла только часть таблицы с помощью pdfplumber? - Цифровое Кемерово

Как извлечь из PDF-файла только часть таблицы с помощью pdfplumber? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь из PDF-файла только часть таблицы с помощью pdfplumber?

Цитата

Сообщение Anonymous » 30 апр 2024, 18:26

Я пытаюсь использовать pdfplumber для извлечения ТОЛЬКО определенных данных из таблицы PDF-файла в CSV-файл. Это изображение стола, на который я смотрю.

На данный момент я нахожусь на этапе записи таблицы в файл Excel. Вот код, который у меня есть:

Код: Выделить всё

import pdfplumber
import csv
import os
# Define extraction regions for each table (adjust coordinates as needed)
regions = [
(10, 100, 600, 260),
]
# Region for Table 1
# Add more regions for additional tables if needed

# Define the desired headers

# Specify the directory and filename for saving the CSV file
output_directory = "C:/Users/myname/Downloads"
output_filename = "clients_info.csv"
output_path = os.path.join(output_directory, output_filename)

with pdfplumber.open("C:/Users/myname/Downloads/clients.pdf") as pdf:
for region_index, region in enumerate(regions):
x1, y1, x2, y2 = region
tables_data = []  # Store data for all tables in this region

page = pdf.pages[0]  # Extracting tables from the first page
table = page.within_bbox((x1, y1, x2, y2)).extract_table()

# Extract header row and filter out None values
header_row = [cell for cell in table[0] if cell is not None]

# Extract data rows and remove None values
for row in table[1:]:
filtered_row = [cell if cell is not None else "" for cell in row]
tables_data.append(filtered_row)

# Write the data for this region to a CSV file
with open(output_path, "w", newline="") as csvfile:
writer = csv.writer(csvfile)
writer.writerow(header_row)  # Write the filtered header row to the CSV file
for row in tables_data:
writer.writerow(row)  # Write the data rows to the CSV file

Однако я хочу написать только заголовки, выделенные красным цветом в первой строке Excel, и соответствующие данные (белые ячейки красного цвета) во второй строке. В конце концов, я хотел бы просмотреть весь 200-страничный PDF-файл, поскольку каждая таблица представляет 1 человека, а всего их 100 человек. Как мне улучшить его, чтобы печатать только те, которые выделены красным?
Большое спасибо за помощь.

Подробнее здесь: https://stackoverflow.com/questions/784 ... pdfplumber

Реклама

1714490773

Anonymous

Я пытаюсь использовать pdfplumber для извлечения ТОЛЬКО определенных данных из таблицы PDF-файла в CSV-файл. Это изображение стола, на который я смотрю.
[img]https://i.sstatic.net/nLepE5PN.png[/img]

На данный момент я нахожусь на этапе записи таблицы в файл Excel. Вот код, который у меня есть:
[code]import pdfplumber
import csv
import os
# Define extraction regions for each table (adjust coordinates as needed)
regions = [
(10, 100, 600, 260),
]
# Region for Table 1
# Add more regions for additional tables if needed

# Define the desired headers

# Specify the directory and filename for saving the CSV file
output_directory = "C:/Users/myname/Downloads"
output_filename = "clients_info.csv"
output_path = os.path.join(output_directory, output_filename)

with pdfplumber.open("C:/Users/myname/Downloads/clients.pdf") as pdf:
for region_index, region in enumerate(regions):
x1, y1, x2, y2 = region
tables_data = []  # Store data for all tables in this region

page = pdf.pages[0]  # Extracting tables from the first page
table = page.within_bbox((x1, y1, x2, y2)).extract_table()

# Extract header row and filter out None values
header_row = [cell for cell in table[0] if cell is not None]

# Extract data rows and remove None values
for row in table[1:]:
filtered_row = [cell if cell is not None else "" for cell in row]
tables_data.append(filtered_row)

# Write the data for this region to a CSV file
with open(output_path, "w", newline="") as csvfile:
writer = csv.writer(csvfile)
writer.writerow(header_row)  # Write the filtered header row to the CSV file
for row in tables_data:
writer.writerow(row)  # Write the data rows to the CSV file
[/code]
Однако я хочу написать только заголовки, выделенные красным цветом в первой строке Excel, и соответствующие данные (белые ячейки красного цвета) во второй строке. В конце концов, я хотел бы просмотреть весь 200-страничный PDF-файл, поскольку каждая таблица представляет 1 человека, а всего их 100 человек. Как мне улучшить его, чтобы печатать только те, которые выделены красным?
Большое спасибо за помощь. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78409523/how-to-extract-only-part-of-a-table-from-a-pdf-file-using-pdfplumber[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сохранить PDF-файл после обрезки каждой страницы PDF-файла с помощью pdfplumber?

Последнее сообщение Anonymous « 25 ноя 2024, 14:54
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 14:54 » в форуме Python

Я использую PDF-файл с несколькими страницами, в котором поверх каждой страницы есть таблица, от которой я хочу избавиться. Поэтому я обрезаю PDF-файл после верхней таблицы.
Я не знаю, как объединить или сохранить его как один PDF-файл после...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 14:54
Как сохранить PDF-файл после обрезки каждой страницы PDF-файла с помощью pdfplumber?

Последнее сообщение Anonymous « 25 ноя 2024, 15:28
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 15:28 » в форуме Python

Я использую PDF-файл с несколькими страницами, в котором поверх каждой страницы есть таблица, от которой я хочу избавиться. Поэтому я обрезаю PDF-файл после верхней таблицы.
Я не знаю, как объединить или сохранить его как один PDF-файл после...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 15:28
Как сохранить PDF-файл после обрезки каждой страницы PDF-файла с помощью pdfplumber?

Последнее сообщение Anonymous « 25 ноя 2024, 18:08
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 18:08 » в форуме Python

Я использую PDF-файл с несколькими страницами, в котором поверх каждой страницы есть таблица, от которой я хочу избавиться. Поэтому я обрезаю PDF-файл после верхней таблицы.
Я не знаю, как объединить или сохранить его как один PDF-файл после...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 18:08
Как сохранить PDF-файл после обрезки каждой страницы PDF-файла с помощью pdfplumber?

Последнее сообщение Anonymous « 26 ноя 2024, 04:44
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 04:44 » в форуме Python

Я использую PDF-файл с несколькими страницами, в котором поверх каждой страницы есть таблица, от которой я хочу избавиться. Поэтому я обрезаю PDF-файл после верхней таблицы.
Я не знаю, как объединить или сохранить его как один PDF-файл после...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 04:44
Как извлечь только основной текст с помощью pdfplumber и игнорировать текст изображения и таблицы?

Последнее сообщение Anonymous « 29 дек 2024, 16:06
Добавлено в форуме Python

Anonymous » 29 дек 2024, 16:06 » в форуме Python

пытаюсь разобрать любой неотсканированный PDF-файл и извлечь только текст, без таблиц и их комментариев или изображений и их комментариев. только основной текст PDF-файла, если такой текст существует. попробовал pdfplumber.
при попытке этого...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
29 дек 2024, 16:06

Вернуться в «Python»

Programmiererforum