Как разделить PDF с помощью Python, каждая страница, которая содержит набор конкретных уникальных текстовPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как разделить PDF с помощью Python, каждая страница, которая содержит набор конкретных уникальных текстов

Сообщение Anonymous »

У меня есть большой PDF -файл, и мне нужно разделить его на каждую страницу «X», но где «x» может варьироваться.
Мне нужно, чтобы она разделяла каждую страницу, где страница содержит текст «Имя:», но когда текст после «Имя:» Изменения ... < /p>
Так может иметь имя. Он должен разделяться от страниц с 1 по 2, а затем, а затем, страница 3. Заранее,
sachin
update :
Вот какой -то код, который независимо от каждую страницу, но это обнаруживает название после текста «br/rab/nudember, но если у меня есть код, но есть и название. Две последовательные страницы с тем же именем найдены (после текстового поля «Имя: '), что оно не разделяется на этой странице, но объединяет две страницы с одинаковым именем в один файл PDF?import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter

pdf_file_path = 'Payslips.pdf'
file_base_name = pdf_file_path.replace('.pdf', '')
output_folder_path = os.path.join(os.getcwd(), 'Output')

pdf = PdfFileReader(pdf_file_path)

for page_num in range(pdf.numPages):

# Setup Objects & Classes
pdfWriter = PdfFileWriter()
pageObj = pdf.getPage(page_num)
pdfWriter.addPage(pageObj)

# Extract Text
Text = pageObj.extractText()

# print(Text)
MatchedTextArray = re.findall("Name:[^0-9]+?\s", Text)
MatchedText = (MatchedTextArray[0].replace('Name:', '')).replace('\n', '')

# Splitting on UpperCase
res_pos = [i for i, e in enumerate(MatchedText+'A') if e.isupper()]
res_list = [MatchedText[res_pos[j]:res_pos[j + 1]]
for j in range(len(res_pos)-1)]

# Extracting Firstname
firstname = res_list[1]

# Extracting Surname
del res_list[0:2]
surname = ''.join(res_list)

with open(os.path.join(output_folder_path,
'{0}, {1} - {2}.pdf'.format(surname.upper(), firstname.upper(), file_base_name.upper())),
'wb') as f:
pdfWriter.write(f)
f.close()

print("Split Page " + str(page_num))


Подробнее здесь: https://stackoverflow.com/questions/708 ... pecific-un
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»