при попытке этого фрагмента кода он извлекает все тексты, включает таблицы и их комментарии.
Код: Выделить всё
import pdfplumber
with pdfplumber.open("somePDFname.pdf") as pdf:
for pdf_page in pdf.pages:
single_page_text = pdf_page.extract_text()
print( single_page_text )
также прочитайте проблему в pdfplumber (https://www.google.com/url?sa=t&rct=j&q ... CHZ3oBZkQF noECBAQAQ&url=https%3A%2F%2Fgithub.com%2Fjsvine%2Fpdfplumber%2Fissues%2F242&usg=AOvVaw3-4BI2LYY2dmH9ldel9_J9).
также видел это решение. Как я могу извлечь только текст без таблиц внутри файла PDF с помощью PDFplumber?
но лучше использовать pdfplumber для последующего анализа.
Есть ли более общее решение проблемы?
Подробнее здесь: https://stackoverflow.com/questions/742 ... and-tables