Как извлечь только основной текст с помощью pdfplumber и игнорировать текст изображения и таблицы? - Цифровое Кемерово

Как извлечь только основной текст с помощью pdfplumber и игнорировать текст изображения и таблицы? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь только основной текст с помощью pdfplumber и игнорировать текст изображения и таблицы?

Цитата

Сообщение Anonymous » 29 дек 2024, 16:06

пытаюсь разобрать любой неотсканированный PDF-файл и извлечь только текст, без таблиц и их комментариев или изображений и их комментариев. только основной текст PDF-файла, если такой текст существует. попробовал pdfplumber.
при попытке этого фрагмента кода он извлекает все тексты, включает таблицы и их комментарии.

Код: Выделить всё

import pdfplumber

with pdfplumber.open("somePDFname.pdf") as pdf:
for pdf_page in pdf.pages:
single_page_text = pdf_page.extract_text()
print( single_page_text )

видел это решение Как игнорировать таблицу и ее содержимое при извлечении текста из pdf, но если я правильно понял, оно было специфичным для определенной таблицы, поэтому у меня не сработало, так как я не работаю знать яркость таблиц/изображений, которые я сканирую.
также прочитайте проблему в pdfplumber (https://www.google.com/url?sa=t&rct=j&q ... CHZ3oBZkQF noECBAQAQ&url=https%3A%2F%2Fgithub.com%2Fjsvine%2Fpdfplumber%2Fissues%2F242&usg=AOvVaw3-4BI2LYY2dmH9ldel9_J9).
также видел это решение. Как я могу извлечь только текст без таблиц внутри файла PDF с помощью PDFplumber?
но лучше использовать pdfplumber для последующего анализа.
Есть ли более общее решение проблемы?

Подробнее здесь: https://stackoverflow.com/questions/742 ... and-tables

1735477566

Anonymous

пытаюсь разобрать любой неотсканированный PDF-файл и извлечь только текст, без таблиц и их комментариев или изображений и их комментариев. только основной текст PDF-файла, если такой текст существует. попробовал pdfplumber.
при попытке этого фрагмента кода он извлекает все тексты, включает таблицы и их комментарии.
[code]import pdfplumber

with pdfplumber.open("somePDFname.pdf") as pdf:
for pdf_page in pdf.pages:
single_page_text = pdf_page.extract_text()
print( single_page_text )
[/code]
видел это решение Как игнорировать таблицу и ее содержимое при извлечении текста из pdf, но если я правильно понял, оно было специфичным для определенной таблицы, поэтому у меня не сработало, так как я не работаю знать яркость таблиц/изображений, которые я сканирую.
также прочитайте проблему в pdfplumber (https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwj0zejJ2P76AhUzuZUCHZ3oBZkQF noECBAQAQ&url=https%3A%2F%2Fgithub.com%2Fjsvine%2Fpdfplumber%2Fissues%2F242&usg=AOvVaw3-4BI2LYY2dmH9ldel9_J9).
также видел это решение. Как я могу извлечь только текст без таблиц внутри файла PDF с помощью PDFplumber?
но лучше использовать pdfplumber для последующего анализа.
Есть ли более общее решение проблемы? 

Подробнее здесь: [url]https://stackoverflow.com/questions/74213828/how-to-extract-only-main-text-with-pdfplumber-and-ignore-image-text-and-tables[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»