Ошибка Azure Document Intelligence API 429 при обработке большого PDF-файла с разными загрузчиками и внедрениями GPT-4Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Ошибка Azure Document Intelligence API 429 при обработке большого PDF-файла с разными загрузчиками и внедрениями GPT-4

Сообщение Anonymous »

Я разрабатываю приложение Streamlit, которое обрабатывает большой PDF-файл (273 страницы) и интегрирует чат-бота с использованием встраивания и модели GPT-4 (model='text-embedding-ada-002'). Первоначально я успешно использовал PyPDFium2Loader, но столкнулся с проблемами при переключении на AzureAIDocumentIntelligenceLoader mode=single.
Настройка:
  • Извлечение текста из PDF-файла с помощью PyPDFium2Loader с настройками фрагмента (chunk_size=10000, chunk_overlap=1000).
  • Инициализируйте чат-бота, используя model='text-embedding-ada-002 ' и взаимодействовать через интерфейс Streamlit.
Проблема:
  • При использовании PyPDFium2Loader количество векторов составляет 276, и чат-бот работает правильно.
  • При переключении на AzureAIDocumentIntelligenceLoader (режим = одиночный) количество векторов падает до 114, и я постоянно получаю ошибку 429 (слишком много запросов) при тестировании с одним сообщением типа " привет".
Дополнительный контекст:
  • API Azure Document Intelligence имеет ограничение скорости 10 транзакций в секунду (tps).
  • Я реализовал логику повтора с экспоненциальной отсрочкой и ограничением скорости в Python.
Вопросы: >
  • Почему AzureAIDocumentIntelligenceLoader показывает меньшее количество векторов по сравнению с PyPDFium2Loader?
  • Может ли метод AzureAIDocumentIntelligenceLoader, обрабатывающий документ, способствовать возникновению ошибок 429?
  • Как эффективно управлять ошибками ограничения скорости при использовании API Azure с встраиванием GPT-4 и документами большого размера?
Фрагмент –
def extract_embeddings_upload_index(pdf_path, index_name):
print(f"Loading PDF from path: {pdf_path}")

# Load PDF documents
txt_docs = AzureAIDocumentIntelligenceLoader( api_key,file_path=pdf_path,api_endpoint,api_model="prebuilt-layout",mode="single").load()
#total_pages=txt_docs
#print(f'{total_pages}')
#txt_docs = PyPDFium2Loader(pdf_path).load()

# Split documents
print("Splitting documents...")
splt_docs = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
docs = splt_docs.split_documents(txt_docs)
print(f"Split into {len(docs)} chunks")

# Initialize OpenAI embeddings
print("Initializing OpenAI embeddings...")
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')

# Upload documents to Pinecone index
print("Initializing Pinecone Vector Store...")
dbx = PineconeVectorStore.from_documents(documents=docs, index_name=index_name, embedding=embeddings)
print(f"Uploaded {len(docs)} documents to Pinecone index '{index_name}'")


Подробнее здесь: https://stackoverflow.com/questions/787 ... th-differe
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»