Привет, в настоящее время я пытаюсь запустить приложение RAG (чат-бот с часто задаваемыми вопросами), которое состоит из двух пользовательских интерфейсов: один, в котором мы можем отдельно загружать файлы и хранить их внедрения в векторном хранилище PineCone, и другой, где мы можем получить встраивание из выбранного индекса. в чат-бот RAG. Я использовал платную учетную запись gpt-4o (уровень 1) (30 000 токенов) в качестве основного LLM и AzureAIDocumentIntelligenceLoader для асинхронной загрузки PDF-файлов (с использованием функции aload()), чтобы получить 272-страничный PDF-файл и пообщаться с ним. it.Даже когда я просто набираю «привет», он говорит: «»сообщение»: «Запрос слишком большой для gpt-4o в организации org-wOFxlX2RaRVsbRdbSuZ5iBGM по токенам в минуту (TPM): лимит 30000, запрошено 49634. Для успешной работы количество входных или выходных токенов должно быть уменьшено. Посетите https://platform.openai.com/account/rate-limits, чтобы узнать больше.', 'type': 'tokens', 'param': None, ' code': 'rate_limit_exceeded'» Я успешно пытался пообщаться с ним при загрузке с помощью «PyPDFium2Loader». Первое сомнение заключается в том, как он запросил 50 000 токенов, когда я только набрал чат-боту только «привет». Второе сомнение: хотя я добавил асинхронную функцию в функцию загрузчика PDF и задержку при получении ответов, почему я все еще получаю код ошибки: 429
async def extract_embeddings_upload_index(pdf_path, index_name):
print(f"Loading PDF from path: {pdf_path}")
# Load PDF documents
async def lol(pdf_path):
client= await AzureAIDocumentIntelligenceLoader( api_key="167f20e5ce49431aad891c46e2268696",file_path=pdf_path,api_endpoint="https://rx11.cognitiveservices.azure.co ... de="single").aload()
return client
txt_docs = await lol(pdf_path)
#total_pages=txt_docs
#print(f'{total_pages}')
#txt_docs = PyPDFium2Loader(pdf_path).load()
# Split documents
print("Splitting documents...")
splt_docs = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
docs = splt_docs.split_documents(txt_docs)
print(f"Split into {len(docs)} chunks")
# Initialize OpenAI embeddings
print("Initializing OpenAI embeddings...")
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')
# Upload documents to Pinecone index
print("Initializing Pinecone Vector Store...")
dbx = PineconeVectorStore.from_documents(documents=docs, index_name=index_name, embedding=embeddings)
print(f"Uploaded {len(docs)} documents to Pinecone index '{index_name}'")
def initialize(index_name):
embeddings = ini_embed()
print('11')
dbx = PineconeVectorStore.from_existing_index(index_name=index_name, embedding=embeddings)
print('12')
llm = ChatOpenAI(model='gpt-4o', temperature=0.5, max_tokens=3000)
# model_id="meta-llama/Meta-Llama-3-8B"
#model=AutoModelForCausalLM.from_pretrained(model_id)
#tokenizer=AutoTokenizer.from_pretrained(model)
#pipe=pipeline("text-generation",model=model,tokenizer=tokenizer,max_new_tokens=5000)
repo_id="meta-llama/Llama-2-7b-hf"
print('13')
prompt = ini_prompt()
print('14')
doc_chain = create_stuff_documents_chain(llm, prompt)
print('15')
retriever = dbx.as_retriever()
print('16')
ans_retrieval = create_retrieval_chain(retriever, doc_chain)
print('17')
# Wrap the retrieval chain with RunnableWithMessageHistory
conversational_ans_retrieval = RunnableWithMessageHistory(
ans_retrieval,
lambda session_id: StreamlitChatMessageHistory(key=session_id),
input_messages_key="input",
history_messages_key="chat_history",
output_messages_key="answer"
)
print('17')
print(session_id)
print('18')
return conversational_ans_retrieval
def run_query(retrieval_chain, input_text):
st.write('run query')
try:
# Generate a response using the retrieval chain
time.sleep(60)
response = retrieval_chain.invoke(
{"input": input_text},
config={"configurable": {"session_id": f'{session_id}'}}
)
return response['answer']
except KeyError as e:
st.error(f"KeyError occurred: {e}. Check the response structure.")
return None
Подробнее здесь: https://stackoverflow.com/questions/787 ... ting-gpt-4
RateLimitError: код ошибки: 429 при запуске приложения RAG, состоящего из gpt-4oAPI, векторного хранилища шишек, AzureAI ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение