Как удалить водяной знак из PDF-файла с помощью библиотеки Python PyPDF2Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как удалить водяной знак из PDF-файла с помощью библиотеки Python PyPDF2

Сообщение Anonymous »

Я написал код, который извлекает текст из PDF-файла с помощью Python и PyPDF2 lib.
Код хорошо работает для большинства документов, но иногда возвращает странные символы. Я думаю, это потому, что PDF имеет водяной знак на странице и не распознает текст:

Код: Выделить всё

import requests
from io import StringIO, BytesIO
import PyPDF2

def pdf_content_extraction(pdf_link):

all_pdf_content = ''

#sending requests
response = requests.get(pdf_link)
my_raw_data = response.content

pdf_file_text = 'PDF File: ' + pdf_link + '\n\n'
#extract text page by page
with BytesIO(my_raw_data) as data:
read_pdf = PyPDF2.PdfFileReader(data)

#looping trough each page
for page in range(read_pdf.getNumPages()):
page_content = read_pdf.getPage(page).extractText()
page_content = page_content.replace("\n\n\n", "\n").strip()

#store data into variable for each page
pdf_file_text += page_content + '\n\nPAGE '+ str(page+1) + '/' + str(read_pdf.getNumPages()) +'\n\n\n'

all_pdf_content += pdf_file_text + "\n\n"

return all_pdf_content

pdf_link = 'http://www.dielsdorf.ch/dl.php/de/5f867e8255980/2020.10.12.pdf'

print(pdf_content_extraction(pdf_link))
Вот результат, который я получаю:

Код: Выделить всё

#$%˘˘
&'(˝˙˝˙)*+"*˜
˜*
,*˜*˜ˆ+-*˘!(
.˜($*%(#%*˜-/
"*
*˜˜0!0˘˘*˜˘˜ˆ
+˜(%
*
*(+%*˜+"*˜'
$*1˜ˆ
...
...
Мой вопрос: как я могу решить эту проблему?
Есть ли способ удалить водяной знак со страницы или что-то в этом роде?
Я имею в виду, может быть, эта проблема можно исправить каким-то другим способом, может проблема не в том водяном знаке/логотипе?

Подробнее здесь: https://stackoverflow.com/questions/665 ... pypdf2-lib
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»