Как извлечь точное совпадение из таблицы огромных таблиц PDF

Как извлечь точное совпадение из таблицы огромных таблиц PDF ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь точное совпадение из таблицы огромных таблиц PDF

Цитата

Сообщение Anonymous » 24 фев 2025, 14:36

Я использую Python для чтения многих PDF -файлов, и они довольно большие (некоторые имеют 40 страниц, другие 3000). Поэтому мне нужна некоторая оптимизация. Из этих таблиц мне нужно соответствовать записи и извлечь строку из каждого PDF, но, поскольку их так много, мое ядро сбои ... < /p>
я использовал pdfplumber, а также попробовал с Llamareadmarkdown. Есть предложения?
Вот мой код < /p>

Код: Выделить всё

    with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None

Я думаю, чтобы обработать его по партии, но это будет жизнеспособным?

Подробнее здесь: https://stackoverflow.com/questions/794 ... bular-pdfs

1740396972

Anonymous

 Я использую Python для чтения многих PDF -файлов, и они довольно большие (некоторые имеют 40 страниц, другие 3000). Поэтому мне нужна некоторая оптимизация. Из этих таблиц мне нужно соответствовать записи и извлечь строку из каждого PDF, но, поскольку их так много, мое ядро сбои ... < /p>
я использовал pdfplumber, а также попробовал с Llamareadmarkdown. Есть предложения?
Вот мой код < /p>
[code]    with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None
[/code]
Я думаю, чтобы обработать его по партии, но это будет жизнеспособным?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79460679/how-extract-exact-match-from-tabular-huge-tabular-pdfs[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как извлечь точное совпадение из таблицы огромных таблиц PDF

Последнее сообщение Anonymous « 23 фев 2025, 07:32
Добавлено в форуме Python

Anonymous » 23 фев 2025, 07:32 » в форуме Python

Я использую Python для чтения многих PDF -файлов, и они довольно большие (некоторые имеют 40 страниц, другие 3000). Поэтому мне нужна некоторая оптимизация. Из этих таблиц мне нужно соответствовать записи и извлечь строку из каждого PDF, но,...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
23 фев 2025, 07:32
Как извлечь точное совпадение из таблицы огромных таблиц PDF

Последнее сообщение Anonymous « 24 фев 2025, 13:37
Добавлено в форуме Python

Anonymous » 24 фев 2025, 13:37 » в форуме Python

Я использую Python для чтения многих PDF -файлов, и они довольно большие (некоторые имеют 40 страниц, другие 3000). Поэтому мне нужна некоторая оптимизация. Из этих таблиц мне нужно соответствовать записи и извлечь строку из каждого PDF, но,...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
24 фев 2025, 13:37
Ошибка матча по каратэ: совпадение не удалось: EQUALS $ | совпадение не удалось: EQUALS

Последнее сообщение Anonymous « 15 янв 2025, 23:09
Добавлено в форуме JAVA

Anonymous » 15 янв 2025, 23:09 » в форуме JAVA

Я хочу сопоставить значение в столбце базы данных, используя Karate для моей автоматизации API.
Я сделал, как показано ниже.
* def test= db.readRow( select * from testdb.col xyz where xyz.id = ' )

Далее я получаю значение из базы данных и...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
15 янв 2025, 23:09
Regex в Python – фиксируйте только точное совпадение

Последнее сообщение Anonymous « 15 ноя 2024, 05:57
Добавлено в форуме Python

Anonymous » 15 ноя 2024, 05:57 » в форуме Python

import re
fruit_list =
fruit = re.compile('|'.join(fruit_list))
fruit_re =
fruit_re.append(re.compile( r'( )(\w+)'))

string = this is pooapple is banana apple #apple

for ft in fruit_re:

match = re.finditer(ft, string)
print(type(match))
for...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
15 ноя 2024, 05:57
Kotlin точное совпадение строк для данного слова, а не встроенных слов? [дубликат]

Последнее сообщение Anonymous « 04 янв 2025, 21:42
Добавлено в форуме Android

Anonymous » 04 янв 2025, 21:42 » в форуме Android

Я пытаюсь просмотреть строки по заданным ключевым словам, но в некоторых случаях ключевые слова содержатся в других словах, что приводит к ложному срабатыванию. Я уверен, что ответом на этот вопрос является регулярное выражение, я просто не уверен,...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 21:42

Вернуться в «Python»