У меня есть несколько странных символов, и я не знаю, что случилось. br /> < /p>
дает мне это:
< /p>
Существует проблема для "Бельгии".
Вот функция, которую я использую для получения текста из PDF (взята из другой пост): < /p>
Код: Выделить всё
def pdf_to_string(file_object):
pdfData = file_object.read()
tf = tempfile.NamedTemporaryFile()
tf.write(pdfData)
tf.seek(0)
outputTf = tempfile.NamedTemporaryFile()
if (len(pdfData) > 0) :
out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
return outputTf.read()
else :
return None
Подробнее здесь: https://stackoverflow.com/questions/230 ... -pdftotext
Мобильная версия