Пример текста, который я хочу извлечь:
Название абзаца
Боль сама по себе очень важна, за ней будет следить клиент, но это происходит в такой момент, когда работы и боли много. Ведь при легкой беременности долина не всегда является творцом завтрашнего дня.
Код: Выделить всё
with pdfplumber.open(path_to_pdf) as pdf:
pageno = 1
page = pdf.pages[pageno]
text = page.extract_text(x_tolerance=5)
lines = [x.lower().strip() for x in lines]
print(lines)
['Название абзаца', 'боль сама по себе очень важна, за ней следует обучение элитарного человека, но это происходит одновременно с работой и' , 'какая-то сильная боль. ибо забеременеть легко, и долина не всегда является автором завтрашнего дня.]
Я хочу, чтобы она подарила мне это. Это добавит в массив заголовок абзаца, а затем абзац.
['Название абзаца', 'Сама боль должна быть велика, учение будет следовать, но это произойдет в то же время, что и при родах икакая-то сильная боль. Ведь при легкой беременности долина не всегда является творцом завтрашнего дня. ']
Подробнее здесь: https://stackoverflow.com/questions/711 ... paragraphs