Я работаю с простым пользовательским экстрактором в Document AI, который пытается найти следующие поля в любом загруженном PDF-файле:
Страна
Номер
Адрес
Страна
Почта
Адрес
Город
И я использую следующий код для извлечения информации и печати выходного JSON.
Я пытался отфильтровать нужные поля, но не смог это сделать. Я хочу иметь возможность видеть пару ключ-значение для проверки загруженного PDF-файла или нет и уменьшить весь этот шум.
Заранее спасибо.
Я работаю с простым пользовательским экстрактором в Document AI, который пытается найти следующие поля в любом загруженном PDF-файле: Страна Номер Адрес Страна Почта Адрес Город И я использую следующий код для извлечения информации и печати выходного JSON. [code]from google.cloud import documentai_v1 as documentai import json import os from google.colab import files
# Credentials setup (assuming you've uploaded the service account key) uploaded = files.upload() key_file = list(uploaded.keys())[0] os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = key_file
# Configuration PROJECT_ID = "682656916911" # Replace with your project ID LOCATION = "eu" # Use the correct region PROCESSOR_ID = "da26d6ce1aa73a53" # Replace with your processor ID DOCUMENT_PATH = "/content/W-8BEN.pdf" # Path to your document
# Request preparation name = f"projects/{PROJECT_ID}/locations/{LOCATION}/processors/{PROCESSOR_ID}" with open(DOCUMENT_PATH, "rb") as document_file: document_content = document_file.read()