Я хочу извлечь текст из файла PDF и создать древовидную структуру JSON с содержимым (например, заголовок1, заголовок2 и Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Я хочу извлечь текст из файла PDF и создать древовидную структуру JSON с содержимым (например, заголовок1, заголовок2 и

Сообщение Anonymous »

У меня что-то не получается.
Я хочу извлечь текст из PDF-файла и создать с его помощью древовидный json. (для начала изображение и таблица).
Я уже делал что-то подобное с word.
Результат такой:

Код: Выделить всё

{
"type": "title",
"level": 1,
"text": "I - a big 1",
"properties": {
"alignment": "None",
"style": "Heading 1"
},
"content": [
{
"type": "title",
"level": 2,
"text": "a small a with text",
"properties": {
"alignment": "None",
"style": "Heading 2"
},
"content": [
{
"type": "paragraph",
"properties": {
"alignment": "None",
"style": "Normal"
},
"text": "this is the text of my small a"
}
]
},
]
}
Я знаю, что PDF не сохраняет стиль метаданных документа. Таким образом, вы не можете просто рекурсивно обработать его и создать файл json.
Я думаю, что могу попытаться использовать краткое содержание документа, чтобы создать базовое древовидное представление, но я не не знаю, действительно ли это сработает. У меня есть различные PDF-документы, все они имеют разный стиль страницы с содержимым, а некоторые не содержат страницы с содержимым.
Я хочу попробовать использовать OCR, например pytesseract, для обнаружения заголовков, но я не Я действительно не знаю, как заставить его работать и будет ли он полезен.
Если у кого-то есть идеи или решения, я буду рад их прочитать.

Подробнее здесь: https://stackoverflow.com/questions/791 ... cence-with
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»