Получите ограничивающую коробку всех статей в газете PDF -файлаPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Получите ограничивающую коробку всех статей в газете PDF -файла

Сообщение Anonymous »

Я пытаюсь получить ограничивающую коробку из всех статей на странице PDF в газете с помощью PDFPLURME. Однако это не отмечает все статьи. Я использую код ниже. < /P>
import pdfplumber
pdf = pdfplumber.open("2.pdf")
p0 = pdf.pages[0]
im = p0.to_image(resolution=150)

table_settings = {
"snap_y_tolerance": 0,
"intersection_x_tolerance": 50,
}
im.debug_tablefinder(table_settings)
tables = p0.find_tables(table_settings)
im.show()
< /code>
Ссылка на обработанное изображение < /p>
Тем не менее, оно не отмечает все статьи, как показано на прикрепленном изображении. Я думаю, что подход к таблицам был самым быстрым и коротким способом, но он работает для хорошо организованных таблиц. Я думаю, что эта стратегия не подходит для газетных статей. Будут оценены любые другие предложения или улучшения в коде.

Подробнее здесь: https://stackoverflow.com/questions/797 ... r-pdf-file
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»