Как извлечь текст из PDF-файлов, включая все пробелы

Как извлечь текст из PDF-файлов, включая все пробелы ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь текст из PDF-файлов, включая все пробелы

Цитата

Сообщение Anonymous » 17 дек 2024, 13:03

Я пытаюсь создать код для извлечения текста из PDF-файлов и помещения его в базу данных. Для этого я использую Extract_text().
Однако по какой-то причине некоторые пробелы между словами исчезают (например, Australian Shiraz Challenge --> AustralianShirazChallenge). Как мне с этим справиться или какой альтернативный метод/встроенную функцию мне следует использовать вместо этого.
Кроме того, мне нужно иметь возможность чтобы скорректировать мой код чтобы иметь возможность извлекать определенные «столбцы» со слишком большими дополнительными трудностями.

Подробнее здесь: https://stackoverflow.com/questions/792 ... the-spaces

1734429780

Anonymous

Я пытаюсь создать код для извлечения текста из PDF-файлов и помещения его в базу данных. Для этого я использую Extract_text().
Однако по какой-то причине некоторые пробелы между словами исчезают (например, Australian Shiraz Challenge --> AustralianShirazChallenge). Как мне с этим справиться или какой альтернативный метод/встроенную функцию мне следует использовать вместо этого.
Кроме того, мне нужно иметь возможность чтобы скорректировать мой код чтобы иметь возможность извлекать определенные «столбцы» со слишком большими дополнительными трудностями. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79287362/how-do-extract-text-from-pdfs-including-all-the-spaces[/url]

Ответить

1 сообщение • Страница 1 из 1