Фильтровать PDF с помощью PythonPython

Программы на Python
Ответить
Anonymous
 Фильтровать PDF с помощью Python

Сообщение Anonymous »

Я пытался найти ответ самостоятельно, но, к сожалению, так и не нашел того способа, который мне нужен, поэтому у меня есть PDF-файл, который содержит несколько разных PDF-файлов, я хочу создать код Python (с venv), который собираюсь фильтровать PDF-файлы со страницами
например:
  • Клиент хочет отфильтровать свой PDF-файл (Интерфейс будет похож на веб-сайт IlovePdf)< /li>
    Он щелкает загрузить файл
  • Затем выбирает, с какой страницы он хочет фильтровать (например, с 1 по 13, с 14 по 20, с 21 по 25)
    < li>Затем в папку будут загружаться новые отфильтрованные файлы.
Затем код фильтрует этот файл, а затем предоставляет эти отфильтрованные файлы для загрузки.
Все это будет похоже на приложение в компьютеры, поэтому мне нужно будет создать интерфейс, который я сделаю самостоятельно (по крайней мере, я попытаюсь это сделать)
Я пытался использовать glob и мне это не помогло, затем я установил venv в мой проект Python и все

Код: Выделить всё

import glob, os

folder_path = 'C:\\work\\PythonPDF'

os.chdir(folder_path)
files = [file for file in glob.glob("*.pdf")]
files = [file for file in files if file.__contains__('Conlclusion')]
print(files)
Это один из примеров, но он фильтрует по нужному мне слову на страницах

Код: Выделить всё

import fitz

def extract_pdfs(input_pdf_path, output_dir):
document = fitz.open(input_pdf_path)
pdf_count = 1
new_pdf = fitz.open()

for i in range(document.page_count):
page = document.load_page(i)
page_text = page.get_text("text")

if "Abstract" in page_text:
if new_pdf.page_count > 0:
new_pdf.save(f"{output_dir}/extracted_pdf_{pdf_count}.pdf")
pdf_count += 1
new_pdf = fitz.open()

new_pdf.insert_pdf(document, from_page=i, to_page=i)

if new_pdf.page_count > 0:
new_pdf.save(f"{output_dir}/extracted_pdf_{pdf_count}.pdf")

print(f"Извлечено {pdf_count} отдельных PDF файлов.")

input_pdf = r"C:\work\PythonPDF\Filter.pdf"
output_directory = r"C:\work\PythonPDF\AllPdf"

extract_pdfs(input_pdf, output_directory)
Как видите, он фильтрует по слову «Абстрактный», но мне нужно по страницам :(
Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/791 ... ith-python
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»