У меня есть большой PDF -файл, и мне нужно разделить его на каждую страницу «X», но где «x» может варьироваться.
Мне нужно, чтобы она разделяла каждую страницу, где страница содержит текст «Имя:», но когда текст после «Имя:» Изменения ... < /p>
Так может иметь имя. Он должен разделяться от страниц с 1 по 2, а затем, а затем, страница 3. Заранее,
sachin
update :
Вот какой -то код, который независимо от каждую страницу, но это обнаруживает название после текста «br/rab/nudember, но если у меня есть код, но есть и название. Две последовательные страницы с тем же именем найдены (после текстового поля «Имя: '), что оно не разделяется на этой странице, но объединяет две страницы с одинаковым именем в один файл PDF?import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter
pdf_file_path = 'Payslips.pdf'
file_base_name = pdf_file_path.replace('.pdf', '')
output_folder_path = os.path.join(os.getcwd(), 'Output')
pdf = PdfFileReader(pdf_file_path)
for page_num in range(pdf.numPages):
# Setup Objects & Classes
pdfWriter = PdfFileWriter()
pageObj = pdf.getPage(page_num)
pdfWriter.addPage(pageObj)
# Extract Text
Text = pageObj.extractText()
# print(Text)
MatchedTextArray = re.findall("Name:[^0-9]+?\s", Text)
MatchedText = (MatchedTextArray[0].replace('Name:', '')).replace('\n', '')
# Splitting on UpperCase
res_pos = [i for i, e in enumerate(MatchedText+'A') if e.isupper()]
res_list = [MatchedText[res_pos[j]:res_pos[j + 1]]
for j in range(len(res_pos)-1)]
# Extracting Firstname
firstname = res_list[1]
# Extracting Surname
del res_list[0:2]
surname = ''.join(res_list)
with open(os.path.join(output_folder_path,
'{0}, {1} - {2}.pdf'.format(surname.upper(), firstname.upper(), file_base_name.upper())),
'wb') as f:
pdfWriter.write(f)
f.close()
print("Split Page " + str(page_num))
Подробнее здесь: https://stackoverflow.com/questions/708 ... pecific-un
Как разделить PDF с помощью Python, каждая страница, которая содержит набор конкретных уникальных текстов ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение