Преобразование извлеченного текста из списка выбора eBay PDF в массив для сортировкиPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Преобразование извлеченного текста из списка выбора eBay PDF в массив для сортировки

Сообщение Anonymous »

мой друг продает спортивные торговые карты на eBay и спросил, могу ли я помочь ему с проектом. Он хочет, чтобы его список PDF -файл был сортирован с помощью пользовательского SKU, чтобы он мог более эффективно вытащить их из своих ящиков для хранения. /> < /p>
Я думал, что могу взломать его, извлекая содержимое с помощью PYPDF. Примеры на их сайте дают мне хороший способ вытащить текст, но я не уверен, что сейчас лучший подход, так как это в основном только одна большая струна. Это код, который я использую на данный момент: < /p>

Код: Выделить всё

from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')
page = reader.pages[0]
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
print(text)
, который приносит мне это:

Я думаю, что если я не разделил каждую «строку», в виде списка, я мог бы разделиться на SKU, я мог бы разделиться в виде SLAD, я мог бы разделиться на SKU. Но я не совсем уверен в лучшем подходе. Поскольку это последовательная таблица данных, я мог бы подстроить текст последней строки в каждом блоке (значение: 49,99 долл. США, значение: $ 199,99, значение: например, 13,62 долл. эффективно.from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')

listings = []

for page in reader.pages:
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
start_string = 'Quantity\n\n '
start = text.find(start_string)
listings.extend(text[start + len(start_string):].split('\n\n'))

for item in listings:
print(item)
print('-------------------------------------------------')
< /code>
Но я попал в интересную пробку. Некоторые из записей в PDF разбиваются на две страницы. Это означает, что я не могу просто разделить на какую -то произвольную строку, мне придется выяснить, когда запись не «завершена», и попытаться присоединиться к тому, что перед ним.

Подробнее здесь: https://stackoverflow.com/questions/796 ... or-sorting
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»