Как извлечь только основной текст с помощью pdfplumber и игнорировать текст изображения и таблицы?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как извлечь только основной текст с помощью pdfplumber и игнорировать текст изображения и таблицы?

Сообщение Anonymous »

пытаюсь разобрать любой неотсканированный PDF-файл и извлечь только текст, без таблиц и их комментариев или изображений и их комментариев. только основной текст PDF-файла, если такой текст существует. попробовал pdfplumber.
при попытке этого фрагмента кода он извлекает все тексты, включает таблицы и их комментарии.

Код: Выделить всё

import pdfplumber

with pdfplumber.open("somePDFname.pdf") as pdf:
for pdf_page in pdf.pages:
single_page_text = pdf_page.extract_text()
print( single_page_text )
видел это решение Как игнорировать таблицу и ее содержимое при извлечении текста из pdf, но если я правильно понял, оно было специфичным для определенной таблицы, поэтому у меня не сработало, так как я не работаю знать яркость таблиц/изображений, которые я сканирую.
также прочитайте проблему в pdfplumber (https://www.google.com/url?sa=t&rct=j&q ... CHZ3oBZkQF noECBAQAQ&url=https%3A%2F%2Fgithub.com%2Fjsvine%2Fpdfplumber%2Fissues%2F242&usg=AOvVaw3-4BI2LYY2dmH9ldel9_J9).
также видел это решение. Как я могу извлечь только текст без таблиц внутри файла PDF с помощью PDFplumber?
но лучше использовать pdfplumber для последующего анализа.
Есть ли более общее решение проблемы?

Подробнее здесь: https://stackoverflow.com/questions/742 ... and-tables
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»