Извлечение текста из PDF с PDFTOTEXTPython

Программы на Python
Ответить
Anonymous
 Извлечение текста из PDF с PDFTOTEXT

Сообщение Anonymous »

Я пытаюсь извлечь текст из PDF с Python и PdftOtext.
У меня есть несколько странных символов, и я не знаю, что случилось. br /> < /p>

дает мне это:
< /p>

Существует проблема для "Бельгии".
Вот функция, которую я использую для получения текста из PDF (взята из другой пост): < /p>

Код: Выделить всё

def pdf_to_string(file_object):
pdfData = file_object.read()

tf = tempfile.NamedTemporaryFile()
tf.write(pdfData)
tf.seek(0)

outputTf = tempfile.NamedTemporaryFile()

if (len(pdfData) > 0) :
out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
return outputTf.read()
else :
return None
Нужно ли использовать другой инструмент?


Подробнее здесь: https://stackoverflow.com/questions/230 ... -pdftotext
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»