Настройка pdfplumber python extract_tables для конкретной стратегии

Настройка pdfplumber python extract_tables для конкретной стратегии ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Настройка pdfplumber python extract_tables для конкретной стратегии

Цитата

Сообщение Anonymous » 16 ноя 2024, 03:18

Я пытаюсь извлечь таблицу из PDF. Какая стратегия лучше для этого? Я не могу извлечь конкретные значения из таблицы; например, в первой таблице мне нужно получить [70,75,80,85,90,95,100,105,110,115,120] и для второй строки [0,0,2,6,10,10,10,2, 2,0,0]
Мой окончательный результат должен быть: 411924,KGDHN,MBELT W 40 INT, T.GG SUPREME/SELLERIA, 9643 BEIGE EBONY/COCOA, [ 70,75,80,85,90,95,100,105,110,115,120] ,[0,0,2,6,10,10,10,2,2,0,0],42,200.00,8,400.00

Код: Выделить всё

with pdfplumber.open(doc) as pdf:
print(pdf.pages)
page = pdf.pages[0]
im = page.to_image(resolution = 400)
text = page.extract_words()
im = im.draw_rects(page.extract_words())
im.show()
# h = open('empty_test' + '.json', "w")
# json.dump(text, h, indent=2, sort_keys=False)
# h.close()

Это PDF-файл с текстом. Я могу легко извлечь текст и сохранить почти тот же макет

Код: Выделить всё

for page in pdf.pages:
for line in page.extract_text(keep_blank_chars=False, layout=True).splitlines():
print(line)

Подробнее здесь: https://stackoverflow.com/questions/765 ... c-strategy

1731716312

Anonymous

Я пытаюсь извлечь таблицу из PDF. Какая стратегия лучше для этого? Я не могу извлечь конкретные значения из таблицы; например, в первой таблице мне нужно получить [70,75,80,85,90,95,100,105,110,115,120] и для второй строки [0,0,2,6,10,10,10,2, 2,0,0]
Мой окончательный результат должен быть: 411924,KGDHN,MBELT W 40 INT, T.GG SUPREME/SELLERIA, 9643 BEIGE EBONY/COCOA, [ 70,75,80,85,90,95,100,105,110,115,120] ,[0,0,2,6,10,10,10,2,2,0,0],42,200.00,8,400.00
[img]https://i.sstatic.net/fuP6p.png[/img]
[code]with pdfplumber.open(doc) as pdf:
print(pdf.pages)
page = pdf.pages[0]
im = page.to_image(resolution = 400)
text = page.extract_words()
im = im.draw_rects(page.extract_words())
im.show()
# h = open('empty_test' + '.json', "w")
# json.dump(text, h, indent=2, sort_keys=False)
# h.close()
[/code]
[img]https://i.sstatic.net/eLvfe.png[/img]

Это PDF-файл с текстом. Я могу легко извлечь текст и сохранить почти тот же макет
[code]for page in pdf.pages:
for line in page.extract_text(keep_blank_chars=False, layout=True).splitlines():
print(line)
[/code]
[img]https://i.sstatic.net/0grDA.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/76584489/pdfplumber-python-extract-tables-setting-for-the-specific-strategy[/url]