Как извлекать текст из PDF, включая изображения и текстPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как извлекать текст из PDF, включая изображения и текст

Сообщение Anonymous »

Я собираюсь извлечь текст из нескольких файлов PDF. Файлы PDF включают текст и некоторые изображения, и даже некоторые страницы - сканируемые страницы (я предполагал, что отсканированные страницы похожи на изображения). Я следовал приведенным ниже командам, чтобы извлечь текст из файлов PDF.lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text = ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)


Подробнее здесь: https://stackoverflow.com/questions/695 ... s-and-text
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Извлекать поля формы XDF из PDF
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • Извлекать поля формы XFA из PDF
    Anonymous » » в форуме Python
    0 Ответы
    4 Просмотры
    Последнее сообщение Anonymous
  • Извлекать поля формы XFA из PDF
    Anonymous » » в форуме Python
    0 Ответы
    3 Просмотры
    Последнее сообщение Anonymous
  • Извлекать поля формы XFA из PDF
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • Извлекать метаданные из файла изображения с помощью Java
    Anonymous » » в форуме JAVA
    0 Ответы
    5 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»