Извлечение разреженных таблиц с помощью pdfplumberPython

Программы на Python
Ответить
Anonymous
 Извлечение разреженных таблиц с помощью pdfplumber

Сообщение Anonymous »

Я пытаюсь извлечь таблицу из PDF. Какая стратегия лучше для этого? Я не могу извлечь конкретные значения из таблицы; например, в первой таблице мне нужно получить [70,75,80,85,90,95,100,105,110,115,120] и для второй строки [0,0,2,6,10,10,10,2, 2,0,0]
Мой окончательный результат должен быть: 411924,KGDHN,MBELT W 40 INT, T.GG SUPREME/SELLERIA, 9643 БЕЖЕВЫЙ ЧЕРНЫЙ/КАКАО, [70,75,80,85,90,95,100,105,110,115,120] ,[0,0,2,6,10,10,10,2,2,0,0],42,200.00,8,400.00
Изображение

Это PDF-файл с текстом. Я могу легко извлечь текст и сохранить почти тот же макет

Код: Выделить всё

for page in pdf.pages:
for line in page.extract_text(keep_blank_chars=False, layout=True).splitlines():
print(line)
Изображение


Подробнее здесь: https://stackoverflow.com/questions/765 ... pdfplumber
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»