Пытаюсь извлечь информацию из PDF-файлов в Google Colab. Он просто повторяет большую часть информации из первого файла в

Пытаюсь извлечь информацию из PDF-файлов в Google Colab. Он просто повторяет большую часть информации из первого файла в ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Пытаюсь извлечь информацию из PDF-файлов в Google Colab. Он просто повторяет большую часть информации из первого файла в

Цитата

Сообщение Anonymous » 26 июн 2024, 20:49

Это код:

Код: Выделить всё

for file in files.get('files', []):
# ... (Get file content as before)

# Extract data from the PDF
pdf_reader = PyPDF2.PdfReader(BytesIO(file_content))
page = pdf_reader.pages[0]  # Assuming you want to extract from the first page

# 1. File Name
file_name = file['name']
print(f"File: {file_name}")

# 2. Process Number
process_number = None
process_number_match = None
process_number_match = re.search(r"(\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4})", page.extract_text())
if process_number_match:
process_number = process_number_match.group(1)
print(f"Process Number: {process_number}")
else:
print("erro, número do processo não encontrado")

# 3. Name
name = None  # Reset the name variable
name_match = None
name_match = re.search(r"(AUTOR|INTERESSADOS|INTERESSADO|INTERESSADA):\s+([A-Z\s]+)", page.extract_text())
if name_match:
name = name_match.group(2)
print(f"Name: {name}")
else:
print("error, nome não encontrado")

# 4. Keywords
found_keywords = []  # Reset the found_keywords list
keywords = ["audiência", "subsídios", "cumprimento"]
for keyword in keywords:
if keyword in page.extract_text():
found_keywords.append(keyword)
if found_keywords:
print(f"Keywords Found: {', '.join(found_keywords)}")
else:
print("erro, pedido não encontrado")

Он будет продолжать печатать это:

Код: Выделить всё

Keywords Found: cumprimento
File: 33-00737.015338.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 32-00737.012571.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 31-00737.012592.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 30-00737.010470.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 29-00737.007060.pdf
Process Number: (number1)
Name:(name1)

Номер файла обновляется, поэтому считываются правильные файлы. Но он продолжает повторять другие строки. Я попробовал сбросить настройки с помощью = None, но не помогло.
Пробовал использовать

Код: Выделить всё

# 3. Name
name = None  # Reset the name variable
name_match = None
name_match = re.search(r"(AUTOR|INTERESSADOS|INTERESSADO|INTERESSADA):\s+([A-Z\s]+)", page.extract_text())
if name_match:
name = name_match.group(2)
print(f"Name: {name}")
else:
print("error, nome não encontrado")

Я ожидал, что для каждого документа будет напечатано имя. Вместо этого я получил правильное имя для первого документа, и оно повторилось для всех остальных.

Подробнее здесь: https://stackoverflow.com/questions/786 ... st-repeati

1719424166

Anonymous

Это код:
[code]for file in files.get('files', []):
# ... (Get file content as before)

# Extract data from the PDF
pdf_reader = PyPDF2.PdfReader(BytesIO(file_content))
page = pdf_reader.pages[0]  # Assuming you want to extract from the first page

# 1. File Name
file_name = file['name']
print(f"File: {file_name}")

# 2. Process Number
process_number = None
process_number_match = None
process_number_match = re.search(r"(\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4})", page.extract_text())
if process_number_match:
process_number = process_number_match.group(1)
print(f"Process Number: {process_number}")
else:
print("erro, número do processo não encontrado")

# 3. Name
name = None  # Reset the name variable
name_match = None
name_match = re.search(r"(AUTOR|INTERESSADOS|INTERESSADO|INTERESSADA):\s+([A-Z\s]+)", page.extract_text())
if name_match:
name = name_match.group(2)
print(f"Name: {name}")
else:
print("error, nome não encontrado")

# 4. Keywords
found_keywords = []  # Reset the found_keywords list
keywords = ["audiência", "subsídios", "cumprimento"]
for keyword in keywords:
if keyword in page.extract_text():
found_keywords.append(keyword)
if found_keywords:
print(f"Keywords Found: {', '.join(found_keywords)}")
else:
print("erro, pedido não encontrado")
[/code]
Он будет продолжать печатать это:
[code]Keywords Found: cumprimento
File: 33-00737.015338.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 32-00737.012571.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 31-00737.012592.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 30-00737.010470.pdf
Process Number: (number1)
Name:(name1)

S
Keywords Found: cumprimento
File: 29-00737.007060.pdf
Process Number: (number1)
Name:(name1)
[/code]
Номер файла обновляется, поэтому считываются правильные файлы. Но он продолжает повторять другие строки. Я попробовал сбросить настройки с помощью = None, но не помогло.
Пробовал использовать
[code]# 3. Name
name = None  # Reset the name variable
name_match = None
name_match = re.search(r"(AUTOR|INTERESSADOS|INTERESSADO|INTERESSADA):\s+([A-Z\s]+)", page.extract_text())
if name_match:
name = name_match.group(2)
print(f"Name: {name}")
else:
print("error, nome não encontrado")
[/code]
Я ожидал, что для каждого документа будет напечатано имя. Вместо этого я получил правильное имя для первого документа, и оно повторилось для всех остальных. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78673929/trying-to-extract-information-from-pdf-files-in-google-colab-it-is-just-repeati[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как извлечь выгоду из первого символа каждого слова или первого символа целой строки, с C#?

Последнее сообщение Anonymous « 07 май 2025, 01:04
Добавлено в форуме C#

Anonymous » 07 май 2025, 01:04 » в форуме C#

Я мог бы написать свой собственный алгоритм, чтобы сделать это, но я чувствую, что должен быть эквивалент гуманизации Руби в C#.

Я гуглил его, но нашел только способы гуманизации дат.

Примеры:

Способ превратить «Lorem Lipsum et» в «Lorem...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 май 2025, 01:04
CSS функционирует с повторением, но проходит через каждую часть, а не повторяет все это

Последнее сообщение Anonymous « 28 май 2025, 20:20
Добавлено в форуме CSS

Anonymous » 28 май 2025, 20:20 » в форуме CSS

Я знаю
repeat(x, a b c)

эквивалентен x переизбытки A B C , например, Повторите (3, 1FR 2FR) IS 1FR 2FR 1FR 2FR 1FR 2FR .
То, что я хочу, похожа, но отличается: вместо повторения полного A B C каждый раз я хочу процитироваться через них для...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
28 май 2025, 20:20
Google Colab не может извлечь большой файл, сохраненный на моем Google Диске

Последнее сообщение Anonymous « 02 июл 2024, 18:49
Добавлено в форуме Python

Anonymous » 02 июл 2024, 18:49 » в форуме Python

Я пытаюсь извлечь в себя большой файл, сохраненный на Google Диске. Я пробовал приложения Google Drive в Google Workspace Marketplace, такие как «ZIP Extractor» и «UnRAR и RAR Viewer». Но из-за большого размера файла они перестают отвечать... Затем...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 18:49
Как извлечь из PDF-файла только часть таблицы с помощью pdfplumber?

Последнее сообщение Anonymous « 30 апр 2024, 18:26
Добавлено в форуме Python

Anonymous » 30 апр 2024, 18:26 » в форуме Python

Я пытаюсь использовать pdfplumber для извлечения ТОЛЬКО определенных данных из таблицы PDF-файла в CSV-файл. Это изображение стола, на который я смотрю.

На данный момент я нахожусь на этапе записи таблицы в файл Excel. Вот код, который у меня...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
30 апр 2024, 18:26
Как извлечь часть XML из PDF-файла ZUGFeRD в виде строки с помощью PHP и Laravel?

Последнее сообщение Anonymous « 28 ноя 2024, 15:16
Добавлено в форуме Php

Anonymous » 28 ноя 2024, 15:16 » в форуме Php

Я работаю над проектом Laravel, в котором мне нужно извлечь часть XML, встроенную в счет в формате PDF, совместимый с ZUGFeRD, и обработать ее как строку. Цель состоит в том, чтобы получить полный встроенный XML из файла PDF.
Я понимаю, что в...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 15:16

Вернуться в «Python»