Ниже приведена функция, которую я использую:
#function для получения PDF-файла по URL-адресу:
Код: Выделить всё
def converter(url):
text=[]
req= requests.get(url)
with pdfplumber.open(BytesIO(req.content)) as pdf:
for i in range(0, len(pdf.pages)):
pages= pdf.pages[i]
text.append(pages.extract_text())
return "\n".join(str(i) for i in text)

Вот первая строка отчета (начало первого столбца и второго столбца, объединенных функцией):
\nОдной из моих первых обязанностей в 2019 году было интервью. Когда мы
приступили к новому стратегическому периоду \non шоу «Доброе утро, Норвегия», о котором
поговорим в 2016 году, я выразил надежду, что AF отнесется к этому \nо Цель AF — удвоить процент столь же сплоченных людей, когда мы
будем превзойти \nженщин
Было бы полезно, если бы я мог извлечь предложения точно так же, как указано в отчете.
Мобильная версия