Фильтровать PDF с помощью Python - Цифровое Кемерово

Фильтровать PDF с помощью Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 14 ноя 2024, 15:35

Я пытался найти ответ самостоятельно, но, к сожалению, так и не нашел того способа, который мне нужен, поэтому у меня есть PDF-файл, который содержит несколько разных PDF-файлов, я хочу создать код Python (с venv), который собираюсь фильтровать PDF-файлы со страницами
например:

Клиент хочет отфильтровать свой PDF-файл (Интерфейс будет похож на веб-сайт IlovePdf)< /li>
Он щелкает загрузить файл
Затем выбирает, с какой страницы он хочет фильтровать (например, с 1 по 13, с 14 по 20, с 21 по 25)
< li>Затем в папку будут загружаться новые отфильтрованные файлы.

Затем код фильтрует этот файл, а затем предоставляет эти отфильтрованные файлы для загрузки.
Все это будет похоже на приложение в компьютеры, поэтому мне нужно будет создать интерфейс, который я сделаю самостоятельно (по крайней мере, я попытаюсь это сделать)
Я пытался использовать glob и мне это не помогло, затем я установил venv в мой проект Python и все

Код: Выделить всё

import glob, os

folder_path = 'C:\\work\\PythonPDF'

os.chdir(folder_path)
files = [file for file in glob.glob("*.pdf")]
files = [file for file in files if file.__contains__('Conlclusion')]
print(files)

Это один из примеров, но он фильтрует по нужному мне слову на страницах

Код: Выделить всё

import fitz

def extract_pdfs(input_pdf_path, output_dir):
document = fitz.open(input_pdf_path)
pdf_count = 1
new_pdf = fitz.open()

for i in range(document.page_count):
page = document.load_page(i)
page_text = page.get_text("text")

if "Abstract" in page_text:
if new_pdf.page_count > 0:
new_pdf.save(f"{output_dir}/extracted_pdf_{pdf_count}.pdf")
pdf_count += 1
new_pdf = fitz.open()

new_pdf.insert_pdf(document, from_page=i, to_page=i)

if new_pdf.page_count > 0:
new_pdf.save(f"{output_dir}/extracted_pdf_{pdf_count}.pdf")

print(f"Извлечено {pdf_count} отдельных PDF файлов.")

input_pdf = r"C:\work\PythonPDF\Filter.pdf"
output_directory = r"C:\work\PythonPDF\AllPdf"

extract_pdfs(input_pdf, output_directory)

Как видите, он фильтрует по слову «Абстрактный», но мне нужно по страницам

Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/791 ... ith-python

1731587703

Anonymous

Я пытался найти ответ самостоятельно, но, к сожалению, так и не нашел того способа, который мне нужен, поэтому у меня есть PDF-файл, который содержит несколько разных PDF-файлов, я хочу создать код Python (с venv), который собираюсь фильтровать PDF-файлы со страницами
например:
[list]
[*]Клиент хочет отфильтровать свой PDF-файл (Интерфейс будет похож на веб-сайт IlovePdf)< /li>
Он щелкает загрузить файл
[*]Затем выбирает, с какой страницы он хочет фильтровать (например, с 1 по 13, с 14 по 20, с 21 по 25)
< li>Затем в папку будут загружаться новые отфильтрованные файлы.
[/list]
Затем код фильтрует этот файл, а затем предоставляет эти отфильтрованные файлы для загрузки.
Все это будет похоже на приложение в компьютеры, поэтому мне нужно будет создать интерфейс, который я сделаю самостоятельно (по крайней мере, я попытаюсь это сделать)
Я пытался использовать glob и мне это не помогло, затем я установил venv в мой проект Python и все
[code]import glob, os

folder_path = 'C:\\work\\PythonPDF'

os.chdir(folder_path)
files = [file for file in glob.glob("*.pdf")]
files = [file for file in files if file.__contains__('Conlclusion')]
print(files)
[/code]
Это один из примеров, но он фильтрует по нужному мне слову на страницах
[code]import fitz

def extract_pdfs(input_pdf_path, output_dir):
document = fitz.open(input_pdf_path)
pdf_count = 1
new_pdf = fitz.open()

for i in range(document.page_count):
page = document.load_page(i)
page_text = page.get_text("text")

if "Abstract" in page_text:
if new_pdf.page_count > 0:
new_pdf.save(f"{output_dir}/extracted_pdf_{pdf_count}.pdf")
pdf_count += 1
new_pdf = fitz.open()

new_pdf.insert_pdf(document, from_page=i, to_page=i)

if new_pdf.page_count > 0:
new_pdf.save(f"{output_dir}/extracted_pdf_{pdf_count}.pdf")

print(f"Извлечено {pdf_count} отдельных PDF файлов.")

input_pdf = r"C:\work\PythonPDF\Filter.pdf"
output_directory = r"C:\work\PythonPDF\AllPdf"

extract_pdfs(input_pdf, output_directory)
[/code]
Как видите, он фильтрует по слову «Абстрактный», но мне нужно по страницам :(
Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79188762/filter-pdf-with-python[/url]