Как разделить PDF с помощью Python, каждая страница, которая содержит набор конкретных уникальных текстов

Как разделить PDF с помощью Python, каждая страница, которая содержит набор конкретных уникальных текстов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как разделить PDF с помощью Python, каждая страница, которая содержит набор конкретных уникальных текстов

Цитата

Сообщение Anonymous » 17 июн 2025, 12:00

У меня есть большой PDF -файл, и мне нужно разделить его на каждую страницу «X», но где «x» может варьироваться.
Мне нужно, чтобы она разделяла каждую страницу, где страница содержит текст «Имя:», но когда текст после «Имя:» Изменения ... < /p>
Так может иметь имя. Он должен разделяться от страниц с 1 по 2, а затем, а затем, страница 3. Заранее,
sachin
update :
Вот какой -то код, который независимо от каждую страницу, но это обнаруживает название после текста «br/rab/nudember, но если у меня есть код, но есть и название. Две последовательные страницы с тем же именем найдены (после текстового поля «Имя: '), что оно не разделяется на этой странице, но объединяет две страницы с одинаковым именем в один файл PDF?import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter

pdf_file_path = 'Payslips.pdf'
file_base_name = pdf_file_path.replace('.pdf', '')
output_folder_path = os.path.join(os.getcwd(), 'Output')

pdf = PdfFileReader(pdf_file_path)

for page_num in range(pdf.numPages):

# Setup Objects & Classes
pdfWriter = PdfFileWriter()
pageObj = pdf.getPage(page_num)
pdfWriter.addPage(pageObj)

# Extract Text
Text = pageObj.extractText()

# print(Text)
MatchedTextArray = re.findall("Name:[^0-9]+?\s", Text)
MatchedText = (MatchedTextArray[0].replace('Name:', '')).replace('\n', '')

# Splitting on UpperCase
res_pos = [i for i, e in enumerate(MatchedText+'A') if e.isupper()]
res_list = [MatchedText[res_pos[j]:res_pos[j + 1]]
for j in range(len(res_pos)-1)]

# Extracting Firstname
firstname = res_list[1]

# Extracting Surname
del res_list[0:2]
surname = ''.join(res_list)

with open(os.path.join(output_folder_path,
'{0}, {1} - {2}.pdf'.format(surname.upper(), firstname.upper(), file_base_name.upper())),
'wb') as f:
pdfWriter.write(f)
f.close()

print("Split Page " + str(page_num))

Подробнее здесь: https://stackoverflow.com/questions/708 ... pecific-un

1750150835

Anonymous

 У меня есть большой PDF -файл, и мне нужно разделить его на каждую страницу «X», но где «x» может варьироваться.
Мне нужно, чтобы она разделяла каждую страницу, где страница содержит текст «Имя:», но когда текст после «Имя:» Изменения ... < /p>
Так может иметь имя. Он должен разделяться от страниц с 1 по 2, а затем, а затем, страница 3. Заранее, 
sachin 
[b] update [/b]: 
Вот какой -то код, который независимо от каждую страницу, но это обнаруживает название после текста «br/rab/nudember, но если у меня есть код, но есть и название. Две последовательные страницы с тем же именем найдены (после текстового поля «Имя: '), что оно не разделяется на этой странице, но объединяет две страницы с одинаковым именем в один файл PDF?import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter

pdf_file_path = 'Payslips.pdf'
file_base_name = pdf_file_path.replace('.pdf', '')
output_folder_path = os.path.join(os.getcwd(), 'Output')

pdf = PdfFileReader(pdf_file_path)

for page_num in range(pdf.numPages):

# Setup Objects & Classes
pdfWriter = PdfFileWriter()
pageObj = pdf.getPage(page_num)
pdfWriter.addPage(pageObj)

# Extract Text
Text = pageObj.extractText()

# print(Text)
MatchedTextArray = re.findall("Name:[^0-9]+?\s", Text)
MatchedText = (MatchedTextArray[0].replace('Name:', '')).replace('\n', '')

# Splitting on UpperCase
res_pos = [i for i, e in enumerate(MatchedText+'A') if e.isupper()]
res_list = [MatchedText[res_pos[j]:res_pos[j + 1]]
for j in range(len(res_pos)-1)]

# Extracting Firstname
firstname = res_list[1]

# Extracting Surname
del res_list[0:2]
surname = ''.join(res_list)

with open(os.path.join(output_folder_path,
'{0}, {1} - {2}.pdf'.format(surname.upper(), firstname.upper(), file_base_name.upper())),
'wb') as f:
pdfWriter.write(f)
f.close()

print("Split Page " + str(page_num))
 

Подробнее здесь: [url]https://stackoverflow.com/questions/70817546/how-do-i-split-a-pdf-using-python-every-page-that-contains-a-set-of-specific-un[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как я могу разделить (разделить, разделить) список на основе условия?

Последнее сообщение Anonymous « 25 июн 2024, 19:12
Добавлено в форуме Python

Anonymous » 25 июн 2024, 19:12 » в форуме Python

У меня есть такой код:
good =
bad =

Цель состоит в том, чтобы разделить содержимое mylist на два других списка в зависимости от того, соответствуют ли они условию.
Как это сделать более элегантно? Могу ли я избежать двух отдельных итераций над...

0 Ответы

109 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 19:12
Как разделить одно изображение на отдельные кликабельные части, каждая из которых имеет разные выходные данные?

Последнее сообщение Anonymous « 19 сен 2024, 00:49
Добавлено в форуме Python

Anonymous » 19 сен 2024, 00:49 » в форуме Python

Я пытаюсь создать программу на Python, в которой у меня есть изображение мышечной диаграммы человека, и вам нужно нажать на правильную мышцу, так как она названа случайным образом. Как разделить изображение на отдельные кликабельные части для каждой...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
19 сен 2024, 00:49
XAMPP: домашняя страница PHP показывает, что страница 404 не найдена, но домашняя страница HTML работает

Последнее сообщение Anonymous « 21 май 2024, 05:55
Добавлено в форуме Php

Anonymous » 21 май 2024, 05:55 » в форуме Php

Я попытался настроить сервер XAMPP для локального тестирования моего собственного веб-сайта WP на своей Windows 11. XAMPP был установлен правильно — я использую порт Apache по умолчанию 80, поскольку нет конфликтов с другими приложениями, и БД была...

0 Ответы

282 Просмотры

Последнее сообщение Anonymous
21 май 2024, 05:55
XAMPP: домашняя страница PHP показывает, что страница 404 не найдена, но домашняя страница HTML работает

Последнее сообщение Anonymous « 21 май 2024, 19:02
Добавлено в форуме Php

Anonymous » 21 май 2024, 19:02 » в форуме Php

Я попытался настроить сервер XAMPP для локального тестирования моего собственного веб-сайта WP на своей Windows 11. XAMPP был установлен правильно — я использую порт Apache по умолчанию 80, поскольку нет конфликтов с другими приложениями, и БД была...

0 Ответы

190 Просмотры

Последнее сообщение Anonymous
21 май 2024, 19:02
XAMPP: домашняя страница PHP показывает, что страница 404 не найдена, но домашняя страница HTML работает

Последнее сообщение Anonymous « 21 май 2024, 19:02
Добавлено в форуме Apache

Anonymous » 21 май 2024, 19:02 » в форуме Apache

Я попытался настроить сервер XAMPP для локального тестирования моего собственного веб-сайта WP на своей Windows 11. XAMPP был установлен правильно — я использую порт Apache по умолчанию 80, поскольку нет конфликтов с другими приложениями, и БД была...

0 Ответы

160 Просмотры

Последнее сообщение Anonymous
21 май 2024, 19:02

Вернуться в «Python»