Преобразование извлеченного текста из списка выбора eBay PDF в массив для сортировки

Преобразование извлеченного текста из списка выбора eBay PDF в массив для сортировки ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Преобразование извлеченного текста из списка выбора eBay PDF в массив для сортировки

Цитата

Сообщение Anonymous » 31 май 2025, 10:29

мой друг продает спортивные торговые карты на eBay и спросил, могу ли я помочь ему с проектом. Он хочет, чтобы его список PDF -файл был сортирован с помощью пользовательского SKU, чтобы он мог более эффективно вытащить их из своих ящиков для хранения. /> < /p>
Я думал, что могу взломать его, извлекая содержимое с помощью PYPDF. Примеры на их сайте дают мне хороший способ вытащить текст, но я не уверен, что сейчас лучший подход, так как это в основном только одна большая струна. Это код, который я использую на данный момент: < /p>

Код: Выделить всё

from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')
page = reader.pages[0]
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
print(text)

, который приносит мне это:

Я думаю, что если я не разделил каждую «строку», в виде списка, я мог бы разделиться на SKU, я мог бы разделиться в виде SLAD, я мог бы разделиться на SKU. Но я не совсем уверен в лучшем подходе. Поскольку это последовательная таблица данных, я мог бы подстроить текст последней строки в каждом блоке (значение: 49,99 долл. США, значение: $ 199,99, значение: например, 13,62 долл. эффективно.from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')

listings = []

for page in reader.pages:
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
start_string = 'Quantity\n\n '
start = text.find(start_string)
listings.extend(text[start + len(start_string):].split('\n\n'))

for item in listings:
print(item)
print('-------------------------------------------------')
< /code>
Но я попал в интересную пробку. Некоторые из записей в PDF разбиваются на две страницы. Это означает, что я не могу просто разделить на какую -то произвольную строку, мне придется выяснить, когда запись не «завершена», и попытаться присоединиться к тому, что перед ним.

Подробнее здесь: https://stackoverflow.com/questions/796 ... or-sorting

1748676578

Anonymous

 мой друг продает спортивные торговые карты на eBay и спросил, могу ли я помочь ему с проектом. Он хочет, чтобы его список PDF -файл был сортирован с помощью пользовательского SKU, чтобы он мог более эффективно вытащить их из своих ящиков для хранения. /> < /p>
Я думал, что могу взломать его, извлекая содержимое с помощью PYPDF. Примеры на их сайте дают мне хороший способ вытащить текст, но я не уверен, что сейчас лучший подход, так как это в основном только одна большая струна. Это код, который я использую на данный момент: < /p>
[code]from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')
page = reader.pages[0]
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
print(text)
[/code]
, который приносит мне это: 
 
Я думаю, что если я не разделил каждую «строку», в виде списка, я мог бы разделиться на SKU, я мог бы разделиться в виде SLAD, я мог бы разделиться на SKU. Но я не совсем уверен в лучшем подходе. Поскольку это последовательная таблица данных, я мог бы подстроить текст последней строки в каждом блоке (значение: 49,99 долл. США, значение: $ 199,99, значение: например, 13,62 долл. эффективно.from pypdf import PdfReader
reader = PdfReader('pick-list.pdf')

listings = []

for page in reader.pages:
text = page.extract_text(
extraction_mode="layout",
layout_mode_scale_weight=1.0,
layout_mode_space_vertically=True
)
start_string = 'Quantity\n\n '
start = text.find(start_string)
listings.extend(text[start + len(start_string):].split('\n\n'))

for item in listings:
print(item)
print('-------------------------------------------------')
< /code>
Но я попал в интересную пробку. Некоторые из записей в PDF разбиваются на две страницы. Это означает, что я не могу просто разделить на какую -то произвольную строку, мне придется выяснить, когда запись не «завершена», и попытаться присоединиться к тому, что перед ним.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79646345/convert-extracted-text-from-ebay-pick-list-pdf-into-array-for-sorting[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python

Последнее сообщение Anonymous « 07 дек 2024, 11:47
Добавлено в форуме Python

Anonymous » 07 дек 2024, 11:47 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

OCR извлекает текст правильно. Однако,...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 11:47
Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python [закрыто]

Последнее сообщение Anonymous « 09 дек 2024, 09:49
Добавлено в форуме Python

Anonymous » 09 дек 2024, 09:49 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

OCR извлекает текст правильно. Однако,...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
09 дек 2024, 09:49
Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python

Последнее сообщение Anonymous « 24 дек 2024, 13:53
Добавлено в форуме Python

Anonymous » 24 дек 2024, 13:53 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

Я пытаюсь получить соответствующие...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 дек 2024, 13:53
Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python

Последнее сообщение Anonymous « 03 янв 2025, 13:28
Добавлено в форуме Python

Anonymous » 03 янв 2025, 13:28 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

Я пытаюсь получить соответствующие...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 13:28
Как получить данные из извлеченного PDF-файла для поиска/фильтрации из другого окна [закрыто]

Последнее сообщение Гость « 14 мар 2024, 11:13
Добавлено в форуме JAVA

Гость » 14 мар 2024, 11:13 » в форуме JAVA

Я использую библиотеку Apache PDF Box, а затем, когда я извлекаю PDF-файл, из извлеченного PDF-файла появляется табличное представление, а затем, когда я нажимаю элемент управления f, появляется еще одно окно для глобального поиска, и это я хочу...

0 Ответы

19 Просмотры

Последнее сообщение Гость
14 мар 2024, 11:13

Вернуться в «Python»