Как извлекать текст из PDF, включая изображения и текст

Как извлекать текст из PDF, включая изображения и текст ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как извлекать текст из PDF, включая изображения и текст

Цитата

Сообщение Anonymous » 09 апр 2025, 04:26

Я собираюсь извлечь текст из нескольких файлов PDF. Файлы PDF включают текст и некоторые изображения, и даже некоторые страницы - сканируемые страницы (я предполагал, что отсканированные страницы похожи на изображения). Я следовал приведенным ниже командам, чтобы извлечь текст из файлов PDF.lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text = ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)

Подробнее здесь: https://stackoverflow.com/questions/695 ... s-and-text

1744161984

Anonymous

 Я собираюсь извлечь текст из нескольких файлов PDF. Файлы PDF включают текст и некоторые изображения, и даже некоторые страницы - сканируемые страницы (я предполагал, что отсканированные страницы похожи на изображения). Я следовал приведенным ниже командам, чтобы извлечь текст из файлов PDF.lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text =  ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/69574624/how-extract-text-from-pdf-including-images-and-text[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Извлекать поля формы XDF из PDF

Последнее сообщение Anonymous « 06 авг 2025, 03:36
Добавлено в форуме Python

Anonymous » 06 авг 2025, 03:36 » в форуме Python

Некоторые из полей формы XDF отсутствуют, когда из некоторых PDF -файлов извлекается /PageitemuidtolocationDatamap , как показано на изображении ниже, показывающие только поля, идентифицированные с черными точками для страниц 1 и 2 (нажмите...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 03:36
Извлекать поля формы XFA из PDF

Последнее сообщение Anonymous « 06 авг 2025, 07:06
Добавлено в форуме Python

Anonymous » 06 авг 2025, 07:06 » в форуме Python

Некоторые из полей формы Adobe XFA отсутствуют, когда из некоторых PDF -файлов извлекается /pdf -файлы, как показано на изображении ниже, извлечено из черных точек для страниц 1 и 2 (нажмите изображение, показано на изображении ниже. Как можно...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 07:06
Извлекать поля формы XFA из PDF

Последнее сообщение Anonymous « 07 авг 2025, 10:48
Добавлено в форуме Python

Anonymous » 07 авг 2025, 10:48 » в форуме Python

Некоторые из полей формы Adobe XFA отсутствуют, когда из некоторых файлов PDF извлекаются /pdf -файлы, как показано на изображении ниже, отображаются только черные точки для страниц 1 и 3 (нажмите изображение, показанное на изображении ниже. Как...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
07 авг 2025, 10:48
Извлекать поля формы XFA из PDF

Последнее сообщение Anonymous « 08 авг 2025, 04:32
Добавлено в форуме Python

Anonymous » 08 авг 2025, 04:32 » в форуме Python

Некоторые из полей формы Adobe XFA отсутствуют, когда из некоторых файлов PDF извлекаются /pdf -файлы, как показано на изображении ниже, отображаются только черные точки для страниц 1 и 3 (нажмите изображение, показанное на изображении ниже. Как...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
08 авг 2025, 04:32
Извлекать метаданные из файла изображения с помощью Java

Последнее сообщение Anonymous « 13 фев 2025, 15:39
Добавлено в форуме JAVA

Anonymous » 13 фев 2025, 15:39 » в форуме JAVA

Я хочу прочитать свойства, такие как created_date, modified_date, создатель и т. Д. ... в Java, из форматов файлов изображения ниже:

file
jpeg
tiff
cdr

Я использовал javax.imageio , но я не нашел решение.
Любая помощь будет оценена...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 15:39

Вернуться в «Python»