Настройка pdfplumber python extract_tables для конкретной стратегииPython

Программы на Python
Ответить
Anonymous
 Настройка pdfplumber python extract_tables для конкретной стратегии

Сообщение Anonymous »

Я пытаюсь извлечь таблицу из PDF. Какая стратегия лучше для этого? Я не могу извлечь конкретные значения из таблицы; например, в первой таблице мне нужно получить [70,75,80,85,90,95,100,105,110,115,120] и для второй строки [0,0,2,6,10,10,10,2, 2,0,0]
Мой окончательный результат должен быть: 411924,KGDHN,MBELT W 40 INT, T.GG SUPREME/SELLERIA, 9643 BEIGE EBONY/COCOA, [ 70,75,80,85,90,95,100,105,110,115,120] ,[0,0,2,6,10,10,10,2,2,0,0],42,200.00,8,400.00
Изображение

Код: Выделить всё

with pdfplumber.open(doc) as pdf:
print(pdf.pages)
page = pdf.pages[0]
im = page.to_image(resolution = 400)
text = page.extract_words()
im = im.draw_rects(page.extract_words())
im.show()
# h = open('empty_test' + '.json', "w")
# json.dump(text, h, indent=2, sort_keys=False)
# h.close()
Изображение

Это PDF-файл с текстом. Я могу легко извлечь текст и сохранить почти тот же макет

Код: Выделить всё

for page in pdf.pages:
for line in page.extract_text(keep_blank_chars=False, layout=True).splitlines():
print(line)
Изображение


Подробнее здесь: https://stackoverflow.com/questions/765 ... c-strategy
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»