Мой окончательный результат должен быть: 411924,KGDHN,MBELT W 40 INT, T.GG SUPREME/SELLERIA, 9643 BEIGE EBONY/COCOA, [ 70,75,80,85,90,95,100,105,110,115,120] ,[0,0,2,6,10,10,10,2,2,0,0],42,200.00,8,400.00
Код: Выделить всё
with pdfplumber.open(doc) as pdf:
print(pdf.pages)
page = pdf.pages[0]
im = page.to_image(resolution = 400)
text = page.extract_words()
im = im.draw_rects(page.extract_words())
im.show()
# h = open('empty_test' + '.json', "w")
# json.dump(text, h, indent=2, sort_keys=False)
# h.close()

Это PDF-файл с текстом. Я могу легко извлечь текст и сохранить почти тот же макет
Код: Выделить всё
for page in pdf.pages:
for line in page.extract_text(keep_blank_chars=False, layout=True).splitlines():
print(line)

Подробнее здесь: https://stackoverflow.com/questions/765 ... c-strategy
Мобильная версия