Используйте pdfplumber для извлечения абзацевPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Используйте pdfplumber для извлечения абзацев

Сообщение Anonymous »

Я использую pdfplumber для извлечения текста из PDF-файла. Я могу извлечь строки текста, но у меня возникли проблемы с извлечением абзаца. Вот текущий код, который у меня есть.
Пример текста, который я хочу извлечь:
Название абзаца
Боль сама по себе очень важна, за ней будет следить клиент, но это происходит в такой момент, когда работы и боли много. Ведь при легкой беременности долина не всегда является творцом завтрашнего дня.

Код: Выделить всё

with pdfplumber.open(path_to_pdf) as pdf:
pageno = 1
page = pdf.pages[pageno]
text = page.extract_text(x_tolerance=5)

lines = [x.lower().strip() for x in lines]
print(lines)
Как я могу изменить это, чтобы вместо этого извлекать абзацы? Прямо сейчас это дало бы мне это. По сути, это добавление каждой строки в массив.
['Название абзаца', 'боль сама по себе очень важна, за ней следует обучение элитарного человека, но это происходит одновременно с работой и' , 'какая-то сильная боль. ибо забеременеть легко, и долина не всегда является автором завтрашнего дня.]
Я хочу, чтобы она подарила мне это. Это добавит в массив заголовок абзаца, а затем абзац.
['Название абзаца', 'Сама боль должна быть велика, учение будет следовать, но это произойдет в то же время, что и при родах икакая-то сильная боль. Ведь при легкой беременности долина не всегда является творцом завтрашнего дня. ']

Подробнее здесь: https://stackoverflow.com/questions/711 ... paragraphs
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Как использовать Python-Docx для извлечения абзацев между заголовком и таблицей
    Anonymous » » в форуме Python
    0 Ответы
    12 Просмотры
    Последнее сообщение Anonymous
  • Скрытие/Показ всех абзацев с определенной разметкой
    Гость » » в форуме CSS
    0 Ответы
    23 Просмотры
    Последнее сообщение Гость
  • Счетчик абзацев
    Anonymous » » в форуме Linux
    0 Ответы
    19 Просмотры
    Последнее сообщение Anonymous
  • Drupal 8 программный перевод абзацев
    Anonymous » » в форуме Php
    0 Ответы
    19 Просмотры
    Последнее сообщение Anonymous
  • Как использовать XTextFormatter для печати нескольких абзацев
    Anonymous » » в форуме C#
    0 Ответы
    17 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»