Как удалить водяной знак из PDF-файла с помощью библиотеки Python PyPDF2

Как удалить водяной знак из PDF-файла с помощью библиотеки Python PyPDF2 ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как удалить водяной знак из PDF-файла с помощью библиотеки Python PyPDF2

Цитата

Сообщение Anonymous » 04 дек 2024, 05:30

Я написал код, который извлекает текст из PDF-файла с помощью Python и PyPDF2 lib.
Код хорошо работает для большинства документов, но иногда возвращает странные символы. Я думаю, это потому, что PDF имеет водяной знак на странице и не распознает текст:

Код: Выделить всё

import requests
from io import StringIO, BytesIO
import PyPDF2

def pdf_content_extraction(pdf_link):

all_pdf_content = ''

#sending requests
response = requests.get(pdf_link)
my_raw_data = response.content

pdf_file_text = 'PDF File: ' + pdf_link + '\n\n'
#extract text page by page
with BytesIO(my_raw_data) as data:
read_pdf = PyPDF2.PdfFileReader(data)

#looping trough each page
for page in range(read_pdf.getNumPages()):
page_content = read_pdf.getPage(page).extractText()
page_content = page_content.replace("\n\n\n", "\n").strip()

#store data into variable for each page
pdf_file_text += page_content + '\n\nPAGE '+ str(page+1) + '/' + str(read_pdf.getNumPages()) +'\n\n\n'

all_pdf_content += pdf_file_text + "\n\n"

return all_pdf_content

pdf_link = 'http://www.dielsdorf.ch/dl.php/de/5f867e8255980/2020.10.12.pdf'

print(pdf_content_extraction(pdf_link))

Вот результат, который я получаю:

Код: Выделить всё

#$%˘˘
&'(˝˙˝˙)*+"*˜
˜*
,*˜*˜ˆ+-*˘!(
.˜($*%(#%*˜-/
"*
*˜˜0!0˘˘*˜˘˜ˆ
+˜(%
*
*(+%*˜+"*˜'
$*1˜ˆ
...
...

Мой вопрос: как я могу решить эту проблему?
Есть ли способ удалить водяной знак со страницы или что-то в этом роде?
Я имею в виду, может быть, эта проблема можно исправить каким-то другим способом, может проблема не в том водяном знаке/логотипе?

Подробнее здесь: https://stackoverflow.com/questions/665 ... pypdf2-lib

1733279432

Anonymous

Я написал код, который извлекает текст из PDF-файла с помощью Python и PyPDF2 lib.
Код хорошо работает для большинства документов, но иногда возвращает странные символы. Я думаю, это потому, что PDF имеет водяной знак на странице и не распознает текст:
[code]import requests
from io import StringIO, BytesIO
import PyPDF2

def pdf_content_extraction(pdf_link):

all_pdf_content = ''

#sending requests
response = requests.get(pdf_link)
my_raw_data = response.content

pdf_file_text = 'PDF File: ' + pdf_link + '\n\n'
#extract text page by page
with BytesIO(my_raw_data) as data:
read_pdf = PyPDF2.PdfFileReader(data)

#looping trough each page
for page in range(read_pdf.getNumPages()):
page_content = read_pdf.getPage(page).extractText()
page_content = page_content.replace("\n\n\n", "\n").strip()

#store data into variable for each page
pdf_file_text += page_content + '\n\nPAGE '+ str(page+1) + '/' + str(read_pdf.getNumPages()) +'\n\n\n'

all_pdf_content += pdf_file_text + "\n\n"

return all_pdf_content

pdf_link = 'http://www.dielsdorf.ch/dl.php/de/5f867e8255980/2020.10.12.pdf'

print(pdf_content_extraction(pdf_link))
[/code]
Вот результат, который я получаю:
[code]#$%˘˘
&'(˝˙˝˙)*+"*˜
˜*
,*˜*˜ˆ+-*˘!(
.˜($*%(#%*˜-/
"*
*˜˜0!0˘˘*˜˘˜ˆ
+˜(%
*
*(+%*˜+"*˜'
$*1˜ˆ
...
...
[/code]
Мой вопрос: как я могу решить эту проблему?
Есть ли способ удалить водяной знак со страницы или что-то в этом роде?
Я имею в виду, может быть, эта проблема можно исправить каким-то другим способом, может проблема не в том водяном знаке/логотипе? 

Подробнее здесь: [url]https://stackoverflow.com/questions/66528514/how-to-remove-watermark-from-pdf-file-using-pythons-pypdf2-lib[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как удалить водяной знак из PDF с помощью Python без преобразования PDF в изображения на промежуточном этапе

Последнее сообщение Anonymous « 04 дек 2024, 05:26
Добавлено в форуме Python

Anonymous » 04 дек 2024, 05:26 » в форуме Python

У меня есть PDF-файл с водяным знаком. Он выглядит следующим образом:

Я хочу удалить водяной знак из файла PDF с помощью Python. Я протестировал существующее решение в Интернете, например, используя PyPDF4. Но у меня это не работает. Я хочу...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 05:26
Как удалить водяной знак из PDF с помощью Python без преобразования PDF в изображения на промежуточном этапе

Последнее сообщение Anonymous « 05 дек 2024, 03:06
Добавлено в форуме Python

Anonymous » 05 дек 2024, 03:06 » в форуме Python

У меня есть PDF-файл с водяным знаком. Он выглядит следующим образом:

Я хочу удалить водяной знак из файла PDF с помощью Python. Я протестировал существующее решение в Интернете, например, используя PyPDF4. Но у меня это не работает. Я хочу...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 03:06
PHP — водяной знак существующего PDF-файла с динамическим содержимым (pdf с формами)

Последнее сообщение Anonymous « 22 ноя 2024, 14:35
Добавлено в форуме Php

Anonymous » 22 ноя 2024, 14:35 » в форуме Php

Я ищу решение, которое позволит разместить водяной знак поверх существующего динамического PDF-файла с использованием библиотек PHP. Файл с водяными знаками должен сохранять свое динамическое содержимое, как и формы.
В настоящее время я использую...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
22 ноя 2024, 14:35
Удалить водяной знак «Предварительный просмотр» со всех страниц PDF-файла.

Последнее сообщение Anonymous « 04 дек 2024, 05:24
Добавлено в форуме Python

Anonymous » 04 дек 2024, 05:24 » в форуме Python

введите здесь описание изображения. Я пытаюсь создать скрипт Python, который будет перебирать каждую страницу PDF-файла и удалять водяной знак. Некоторые PDF-файлы содержат более 500 страниц, поэтому перед отправкой нашим клиентам необходимо вручную...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 05:24
Python – удалить водяной знак из файлов PDF

Последнее сообщение Anonymous « 04 дек 2024, 05:29
Добавлено в форуме Python

Anonymous » 04 дек 2024, 05:29 » в форуме Python

Я создал простой скрипт для преобразования файла RTF в PDF. Сценарий работал отлично, но я обнаружил, что на каждом конвертированном PDF-файле есть водяной знак. Я попытался использовать watermark.remove() , кажется, он не работает для моего...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 05:29

Вернуться в «Python»