Извлечение текста из PDF с PDFTOTEXT

Извлечение текста из PDF с PDFTOTEXT ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 25 янв 2025, 21:17

Я пытаюсь извлечь текст из PDF с Python и PdftOtext.
У меня есть несколько странных символов, и я не знаю, что случилось. br /> < /p>

дает мне это:
< /p>

Существует проблема для "Бельгии".
Вот функция, которую я использую для получения текста из PDF (взята из другой пост): < /p>

Код: Выделить всё

def pdf_to_string(file_object):
pdfData = file_object.read()

tf = tempfile.NamedTemporaryFile()
tf.write(pdfData)
tf.seek(0)

outputTf = tempfile.NamedTemporaryFile()

if (len(pdfData) > 0) :
out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
return outputTf.read()
else :
return None

Нужно ли использовать другой инструмент?

Подробнее здесь: https://stackoverflow.com/questions/230 ... -pdftotext

1737829073

Anonymous

 Я пытаюсь извлечь текст из PDF с Python и PdftOtext.
У меня есть несколько странных символов, и я не знаю, что случилось. br />  < /p>

дает мне это:
 < /p>

Существует проблема для "Бельгии".
Вот функция, которую я использую для получения текста из PDF (взята из другой пост): < /p>

[code]def pdf_to_string(file_object):
pdfData = file_object.read()

tf = tempfile.NamedTemporaryFile()
tf.write(pdfData)
tf.seek(0)

outputTf = tempfile.NamedTemporaryFile()

if (len(pdfData) > 0) :
out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
return outputTf.read()
else :
return None
[/code]

Нужно ли использовать другой инструмент?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/23089528/extracting-text-from-a-pdf-with-pdftotext[/url]