Ошибка Azure Document Intelligence API 429 при обработке большого PDF-файла с разными загрузчиками и внедрениями GPT-4

Ошибка Azure Document Intelligence API 429 при обработке большого PDF-файла с разными загрузчиками и внедрениями GPT-4 ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Ошибка Azure Document Intelligence API 429 при обработке большого PDF-файла с разными загрузчиками и внедрениями GPT-4

Цитата

Сообщение Anonymous » 03 июл 2024, 09:05

Я разрабатываю приложение Streamlit, которое обрабатывает большой PDF-файл (273 страницы) и интегрирует чат-бота с использованием встраивания и модели GPT-4 (model='text-embedding-ada-002'). Первоначально я успешно использовал PyPDFium2Loader, но столкнулся с проблемами при переключении на AzureAIDocumentIntelligenceLoader mode=single.
Настройка:

Извлечение текста из PDF-файла с помощью PyPDFium2Loader с настройками фрагмента (chunk_size=10000, chunk_overlap=1000).
Инициализируйте чат-бота, используя model='text-embedding-ada-002 ' и взаимодействовать через интерфейс Streamlit.

Проблема:

При использовании PyPDFium2Loader количество векторов составляет 276, и чат-бот работает правильно.
При переключении на AzureAIDocumentIntelligenceLoader (режим = одиночный) количество векторов падает до 114, и я постоянно получаю ошибку 429 (слишком много запросов) при тестировании с одним сообщением типа " привет".

Дополнительный контекст:

API Azure Document Intelligence имеет ограничение скорости 10 транзакций в секунду (tps).
Я реализовал логику повтора с экспоненциальной отсрочкой и ограничением скорости в Python.

Вопросы: >

Почему AzureAIDocumentIntelligenceLoader показывает меньшее количество векторов по сравнению с PyPDFium2Loader?
Может ли метод AzureAIDocumentIntelligenceLoader, обрабатывающий документ, способствовать возникновению ошибок 429?
Как эффективно управлять ошибками ограничения скорости при использовании API Azure с встраиванием GPT-4 и документами большого размера?

Фрагмент –
def extract_embeddings_upload_index(pdf_path, index_name):
print(f"Loading PDF from path: {pdf_path}")

# Load PDF documents
txt_docs = AzureAIDocumentIntelligenceLoader( api_key,file_path=pdf_path,api_endpoint,api_model="prebuilt-layout",mode="single").load()
#total_pages=txt_docs
#print(f'{total_pages}')
#txt_docs = PyPDFium2Loader(pdf_path).load()

# Split documents
print("Splitting documents...")
splt_docs = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
docs = splt_docs.split_documents(txt_docs)
print(f"Split into {len(docs)} chunks")

# Initialize OpenAI embeddings
print("Initializing OpenAI embeddings...")
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')

# Upload documents to Pinecone index
print("Initializing Pinecone Vector Store...")
dbx = PineconeVectorStore.from_documents(documents=docs, index_name=index_name, embedding=embeddings)
print(f"Uploaded {len(docs)} documents to Pinecone index '{index_name}'")

Подробнее здесь: https://stackoverflow.com/questions/787 ... th-differe

1719986703

Anonymous

Я разрабатываю приложение Streamlit, которое обрабатывает большой PDF-файл (273 страницы) и интегрирует чат-бота с использованием встраивания и модели GPT-4 (model='text-embedding-ada-002'). Первоначально я успешно использовал PyPDFium2Loader, но столкнулся с проблемами при переключении на AzureAIDocumentIntelligenceLoader mode=single.
[b]Настройка:[/b][list]
[*]Извлечение текста из PDF-файла с помощью PyPDFium2Loader с настройками фрагмента (chunk_size=10000, chunk_overlap=1000).

[*]Инициализируйте чат-бота, используя model='text-embedding-ada-002 ' и взаимодействовать через интерфейс Streamlit.

[/list]
[b]Проблема:[/b]
[list]
[*]При использовании PyPDFium2Loader количество векторов составляет 276, и чат-бот работает правильно.

[*]При переключении на AzureAIDocumentIntelligenceLoader (режим = одиночный) количество векторов падает до 114, и я постоянно получаю ошибку 429 (слишком много запросов) при тестировании с одним сообщением типа " привет".

[/list]
[b]Дополнительный контекст:[/b]
[list]
[*]API Azure Document Intelligence имеет ограничение скорости 10 транзакций в секунду (tps).

[*] Я реализовал логику повтора с экспоненциальной отсрочкой и ограничением скорости в Python.

[/list]
[b]Вопросы:[/b] >
[list]
[*]Почему AzureAIDocumentIntelligenceLoader показывает меньшее количество векторов по сравнению с PyPDFium2Loader?

[*]Может ли метод AzureAIDocumentIntelligenceLoader, обрабатывающий документ, способствовать возникновению ошибок 429?

[*] Как эффективно управлять ошибками ограничения скорости при использовании API Azure с встраиванием GPT-4 и документами большого размера?

[/list]
[b]Фрагмент –[/b]
def extract_embeddings_upload_index(pdf_path, index_name):
print(f"Loading PDF from path: {pdf_path}")

# Load PDF documents
txt_docs = AzureAIDocumentIntelligenceLoader( api_key,file_path=pdf_path,api_endpoint,api_model="prebuilt-layout",mode="single").load()
#total_pages=txt_docs
#print(f'{total_pages}')
#txt_docs = PyPDFium2Loader(pdf_path).load()

# Split documents
print("Splitting documents...")
splt_docs = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
docs = splt_docs.split_documents(txt_docs)
print(f"Split into {len(docs)} chunks")

# Initialize OpenAI embeddings
print("Initializing OpenAI embeddings...")
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')

# Upload documents to Pinecone index
print("Initializing Pinecone Vector Store...")
dbx = PineconeVectorStore.from_documents(documents=docs, index_name=index_name, embedding=embeddings)
print(f"Uploaded {len(docs)} documents to Pinecone index '{index_name}'")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78700319/azure-document-intelligence-api-429-error-when-processing-large-pdf-with-differe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Azure Document Intelligence (formrecouncer) — «InvalidContent» при передаче PDF-файла

Последнее сообщение Anonymous « 11 дек 2024, 17:37
Добавлено в форуме Python

Anonymous » 11 дек 2024, 17:37 » в форуме Python

Я загружаю PDF-файл в свое приложениеstreamlit следующим образом:
import streamlit as st

uploaded_file = st.file_uploader( Upload pdf file , type= pdf )
result = analyze_general_document(uploaded_file)

Я хочу проанализировать этот PDF-файл с...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
11 дек 2024, 17:37
Azure Document Intelligence (formrecouncer) — «InvalidContent» при передаче PDF-файла

Последнее сообщение Anonymous « 12 дек 2024, 07:59
Добавлено в форуме Python

Anonymous » 12 дек 2024, 07:59 » в форуме Python

Я загружаю PDF-файл в свое приложениеstreamlit следующим образом:
import streamlit as st

uploaded_file = st.file_uploader( Upload pdf file , type= pdf )
result = analyze_general_document(uploaded_file)

Я хочу проанализировать этот PDF-файл с...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 07:59
Azure Document Intelligence (formrecouncer) — «InvalidContent» при передаче PDF-файла

Последнее сообщение Anonymous « 12 дек 2024, 10:31
Добавлено в форуме Python

Anonymous » 12 дек 2024, 10:31 » в форуме Python

Я загружаю PDF-файл в свое приложениеstreamlit следующим образом:
import streamlit as st

uploaded_file = st.file_uploader( Upload pdf file , type= pdf )
result = analyze_general_document(uploaded_file)

Я хочу проанализировать этот PDF-файл с...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 10:31
Azure Document Intelligence (FormRecognizer) - «InvalidContent» при прохождении PDF

Последнее сообщение Anonymous « 21 фев 2025, 19:56
Добавлено в форуме Python

Anonymous » 21 фев 2025, 19:56 » в форуме Python

Я загружаю файл PDF в свое приложение Streatlit, как это:
import streamlit as st

uploaded_file = st.file_uploader( Upload pdf file , type= pdf )
result = analyze_general_document(uploaded_file)

Я хочу проанализировать этот PDF с помощью пакета...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
21 фев 2025, 19:56
Возможность загрузки документов с помощью Azure Document Intelligence из хранилища контейнеров Azure.

Последнее сообщение Anonymous « 28 июл 2024, 00:14
Добавлено в форуме Python

Anonymous » 28 июл 2024, 00:14 » в форуме Python

У меня есть учетная запись хранения с хранилищем контейнеров Azure, состоящая из нескольких файлов pdf/word/excel. Я хотел бы использовать Azure Document Intelligence для семантической разбивки этих файлов.
Есть ли возможность загрузить файлы...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 00:14

Вернуться в «Python»