RateLimitError: код ошибки: 429 при запуске приложения RAG, состоящего из gpt-4oAPI, векторного хранилища шишек, AzureAI

RateLimitError: код ошибки: 429 при запуске приложения RAG, состоящего из gpt-4oAPI, векторного хранилища шишек, AzureAI ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

RateLimitError: код ошибки: 429 при запуске приложения RAG, состоящего из gpt-4oAPI, векторного хранилища шишек, AzureAI

Цитата

Сообщение Anonymous » 04 июл 2024, 16:34

Привет, в настоящее время я пытаюсь запустить приложение RAG (чат-бот с часто задаваемыми вопросами), которое состоит из двух пользовательских интерфейсов: один, в котором мы можем отдельно загружать файлы и хранить их внедрения в векторном хранилище PineCone, и другой, где мы можем получить встраивание из выбранного индекса. в чат-бот RAG. Я использовал платную учетную запись gpt-4o (уровень 1) (30 000 токенов) в качестве основного LLM и AzureAIDocumentIntelligenceLoader для асинхронной загрузки PDF-файлов (с использованием функции aload()), чтобы получить 272-страничный PDF-файл и пообщаться с ним. it.Даже когда я просто набираю «привет», он говорит: «»сообщение»: «Запрос слишком большой для gpt-4o в организации org-wOFxlX2RaRVsbRdbSuZ5iBGM по токенам в минуту (TPM): лимит 30000, запрошено 49634. Для успешной работы количество входных или выходных токенов должно быть уменьшено. Посетите https://platform.openai.com/account/rate-limits, чтобы узнать больше.', 'type': 'tokens', 'param': None, ' code': 'rate_limit_exceeded'» Я успешно пытался пообщаться с ним при загрузке с помощью «PyPDFium2Loader». Первое сомнение заключается в том, как он запросил 50 000 токенов, когда я только набрал чат-боту только «привет». Второе сомнение: хотя я добавил асинхронную функцию в функцию загрузчика PDF и задержку при получении ответов, почему я все еще получаю код ошибки: 429
async def extract_embeddings_upload_index(pdf_path, index_name):
print(f"Loading PDF from path: {pdf_path}")

# Load PDF documents
async def lol(pdf_path):
client= await AzureAIDocumentIntelligenceLoader( api_key="167f20e5ce49431aad891c46e2268696",file_path=pdf_path,api_endpoint="https://rx11.cognitiveservices.azure.co ... de="single").aload()
return client

txt_docs = await lol(pdf_path)
#total_pages=txt_docs
#print(f'{total_pages}')
#txt_docs = PyPDFium2Loader(pdf_path).load()

# Split documents
print("Splitting documents...")
splt_docs = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
docs = splt_docs.split_documents(txt_docs)
print(f"Split into {len(docs)} chunks")

# Initialize OpenAI embeddings
print("Initializing OpenAI embeddings...")
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')

# Upload documents to Pinecone index
print("Initializing Pinecone Vector Store...")
dbx = PineconeVectorStore.from_documents(documents=docs, index_name=index_name, embedding=embeddings)
print(f"Uploaded {len(docs)} documents to Pinecone index '{index_name}'")

def initialize(index_name):
embeddings = ini_embed()
print('11')
dbx = PineconeVectorStore.from_existing_index(index_name=index_name, embedding=embeddings)
print('12')
llm = ChatOpenAI(model='gpt-4o', temperature=0.5, max_tokens=3000)

# model_id="meta-llama/Meta-Llama-3-8B"
#model=AutoModelForCausalLM.from_pretrained(model_id)
#tokenizer=AutoTokenizer.from_pretrained(model)
#pipe=pipeline("text-generation",model=model,tokenizer=tokenizer,max_new_tokens=5000)
repo_id="meta-llama/Llama-2-7b-hf"

print('13')
prompt = ini_prompt()
print('14')
doc_chain = create_stuff_documents_chain(llm, prompt)
print('15')
retriever = dbx.as_retriever()
print('16')
ans_retrieval = create_retrieval_chain(retriever, doc_chain)
print('17')

# Wrap the retrieval chain with RunnableWithMessageHistory
conversational_ans_retrieval = RunnableWithMessageHistory(
ans_retrieval,
lambda session_id: StreamlitChatMessageHistory(key=session_id),
input_messages_key="input",
history_messages_key="chat_history",
output_messages_key="answer"
)
print('17')

print(session_id)
print('18')

return conversational_ans_retrieval

def run_query(retrieval_chain, input_text):
st.write('run query')
try:
# Generate a response using the retrieval chain
time.sleep(60)
response = retrieval_chain.invoke(
{"input": input_text},
config={"configurable": {"session_id": f'{session_id}'}}
)

return response['answer']
except KeyError as e:
st.error(f"KeyError occurred: {e}. Check the response structure.")
return None

Подробнее здесь: https://stackoverflow.com/questions/787 ... ting-gpt-4

1720100051

Anonymous

Привет, в настоящее время я пытаюсь запустить приложение RAG (чат-бот с часто задаваемыми вопросами), которое состоит из двух пользовательских интерфейсов: один, в котором мы можем отдельно загружать файлы и хранить их внедрения в векторном хранилище PineCone, и другой, где мы можем получить встраивание из выбранного индекса. в чат-бот RAG. Я использовал платную учетную запись gpt-4o (уровень 1) (30 000 токенов) в качестве основного LLM и AzureAIDocumentIntelligenceLoader для асинхронной загрузки PDF-файлов (с использованием функции aload()), чтобы получить 272-страничный PDF-файл и пообщаться с ним. it.Даже когда я просто набираю «привет», он говорит: «[b]»сообщение»: «Запрос слишком большой для gpt-4o в организации org-wOFxlX2RaRVsbRdbSuZ5iBGM по токенам в минуту (TPM): лимит 30000, запрошено 49634. Для успешной работы количество входных или выходных токенов должно быть уменьшено. Посетите https://platform.openai.com/account/rate-limits, чтобы узнать больше.', 'type': 'tokens', 'param': None, ' code': 'rate_limit_exceeded'[/b]» Я успешно пытался пообщаться с ним при загрузке с помощью «PyPDFium2Loader». Первое сомнение заключается в том, как он запросил 50 000 токенов, когда я только набрал чат-боту только «привет». Второе сомнение: хотя я добавил асинхронную функцию в функцию загрузчика PDF и задержку при получении ответов, почему я все еще получаю код ошибки: 429
async def extract_embeddings_upload_index(pdf_path, index_name):
print(f"Loading PDF from path: {pdf_path}")

# Load PDF documents
async def lol(pdf_path):
client= await AzureAIDocumentIntelligenceLoader( api_key="167f20e5ce49431aad891c46e2268696",file_path=pdf_path,api_endpoint="https://rx11.cognitiveservices.azure.com/",api_model="prebuilt-layout",mode="single").aload()
return client

txt_docs = await lol(pdf_path)
#total_pages=txt_docs
#print(f'{total_pages}')
#txt_docs = PyPDFium2Loader(pdf_path).load()

# Split documents
print("Splitting documents...")
splt_docs = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
docs = splt_docs.split_documents(txt_docs)
print(f"Split into {len(docs)} chunks")

# Initialize OpenAI embeddings
print("Initializing OpenAI embeddings...")
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')

# Upload documents to Pinecone index
print("Initializing Pinecone Vector Store...")
dbx = PineconeVectorStore.from_documents(documents=docs, index_name=index_name, embedding=embeddings)
print(f"Uploaded {len(docs)} documents to Pinecone index '{index_name}'")


def initialize(index_name):
embeddings = ini_embed()
print('11')
dbx = PineconeVectorStore.from_existing_index(index_name=index_name, embedding=embeddings)
print('12')
llm = ChatOpenAI(model='gpt-4o', temperature=0.5, max_tokens=3000)

# model_id="meta-llama/Meta-Llama-3-8B"
#model=AutoModelForCausalLM.from_pretrained(model_id)
#tokenizer=AutoTokenizer.from_pretrained(model)
#pipe=pipeline("text-generation",model=model,tokenizer=tokenizer,max_new_tokens=5000)
repo_id="meta-llama/Llama-2-7b-hf"

print('13')
prompt = ini_prompt()
print('14')
doc_chain = create_stuff_documents_chain(llm, prompt)
print('15')
retriever = dbx.as_retriever()
print('16')
ans_retrieval = create_retrieval_chain(retriever, doc_chain)
print('17')

# Wrap the retrieval chain with RunnableWithMessageHistory
conversational_ans_retrieval = RunnableWithMessageHistory(
ans_retrieval,
lambda session_id: StreamlitChatMessageHistory(key=session_id),
input_messages_key="input",
history_messages_key="chat_history",
output_messages_key="answer"
)
print('17')

print(session_id)
print('18')

return conversational_ans_retrieval


def run_query(retrieval_chain, input_text):
st.write('run query')
try:
# Generate a response using the retrieval chain
time.sleep(60)
response = retrieval_chain.invoke(
{"input": input_text},
config={"configurable": {"session_id": f'{session_id}'}}
)

return response['answer']
except KeyError as e:
st.error(f"KeyError occurred: {e}.  Check the response structure.")
return None

 

Подробнее здесь: [url]https://stackoverflow.com/questions/78707409/ratelimiterror-error-code-429-while-running-a-rag-application-consisting-gpt-4[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Инициализация RAG с использованием векторного хранилища без дубликатов

Последнее сообщение Anonymous « 24 ноя 2024, 16:34
Добавлено в форуме JAVA

Anonymous » 24 ноя 2024, 16:34 » в форуме JAVA

Я создаю небольшое приложение, используя Spring-AI с mongodb-atlas (локальным контейнером докеров) для хранения данных RAG.
Я хочу «заполнить» mongoDB некоторым содержимым при запуске службы. Содержимое представляет собой список документов с...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
24 ноя 2024, 16:34
Инициализация RAG с использованием векторного хранилища без дубликатов

Последнее сообщение Anonymous « 30 ноя 2024, 00:09
Добавлено в форуме JAVA

Anonymous » 30 ноя 2024, 00:09 » в форуме JAVA

Я создаю небольшое приложение, используя Spring-AI с mongodb-atlas (локальным контейнером докеров) для хранения данных RAG.
Я хочу «заполнить» mongoDB некоторым содержимым при запуске службы. Содержимое представляет собой список документов с...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
30 ноя 2024, 00:09
Ресурс 429 исчерпан (например, квота проверки): как обрабатывать ошибки 429, несмотря на соблюдение ограничений скорости

Последнее сообщение Anonymous « 08 дек 2024, 01:39
Добавлено в форуме Python

Anonymous » 08 дек 2024, 01:39 » в форуме Python

Я работаю с API (Gemini 1.5 Pro), который имеет ограничение скорости в 1000 вызовов в минуту на один ключ API (по крайней мере, там так указано). Мне нужно как можно быстрее обработать 14 000 записей из файла Excel.
Чтобы справиться с ограничениями...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
08 дек 2024, 01:39
Ресурс 429 исчерпан (например, квота проверки): как обрабатывать ошибки 429, несмотря на соблюдение ограничений скорости

Последнее сообщение Anonymous « 08 дек 2024, 10:42
Добавлено в форуме Python

Anonymous » 08 дек 2024, 10:42 » в форуме Python

Я работаю с API (Gemini 1.5 Pro), который имеет ограничение скорости в 1000 вызовов в минуту на один ключ API (по крайней мере, там так указано). Мне нужно как можно быстрее обработать 14 000 записей из файла Excel.
Чтобы справиться с ограничениями...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
08 дек 2024, 10:42
429 Ресурс был истощен (например, проверка квоты): как обработать 429 ошибок, несмотря на то, что придерживаюсь уровня A

Последнее сообщение Anonymous « 17 май 2025, 17:32
Добавлено в форуме Python

Anonymous » 17 май 2025, 17:32 » в форуме Python

Я работаю с API (Gemini 1.5 Pro), который имеет предел 1000 вызовов в минуту на ключ API (по крайней мере, это говорит об этом). Мне нужно обработать 14 000 записей из файла Excel как можно быстрее. В пределах предела скорости.
Однако, даже с одним...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
17 май 2025, 17:32

Вернуться в «Python»