Я думал, что могу взломать его, извлекая содержимое с помощью PYPDF. Примеры на их сайте дают мне хороший способ вытащить текст, но я не уверен, что сейчас лучший подход, так как это в основном только одна большая струна. Это код, который я использую на данный момент: < /p>
Код: Выделить всё
from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')
page = reader.pages[0]
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
print(text)
Я думаю, что если я не разделил каждую «строку», в виде списка, я мог бы разделиться на SKU, я мог бы разделиться в виде SLAD, я мог бы разделиться на SKU. Но я не совсем уверен в лучшем подходе. Поскольку это последовательная таблица данных, я мог бы подстроить текст последней строки в каждом блоке (значение: 49,99 долл. США, значение: $ 199,99, значение: например, 13,62 долл. эффективно.from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')
listings = []
for page in reader.pages:
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
start_string = 'Quantity\n\n '
start = text.find(start_string)
listings.extend(text[start + len(start_string):].split('\n\n'))
for item in listings:
print(item)
print('-------------------------------------------------')
< /code>
Но я попал в интересную пробку. Некоторые из записей в PDF разбиваются на две страницы. Это означает, что я не могу просто разделить на какую -то произвольную строку, мне придется выяснить, когда запись не «завершена», и попытаться присоединиться к тому, что перед ним.
Подробнее здесь: https://stackoverflow.com/questions/796 ... or-sorting