Ограничено до 5 об/мин на Vertex AI.

Ограничено до 5 об/мин на Vertex AI. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 29 дек 2024, 02:59

Пожалуйста, мне нужна помощь в этом туманном вопросе.
У меня есть очень простой скрипт, который вызывает генерацию модели в Vertex AI:
< pre class="lang-py Prettyprint-override">

Код: Выделить всё

import vertexai
from vertexai.preview.generative_models import GenerativeModel
import asyncio

PROJECT_ID = "MY_PROJECT"
vertexai.init(project=PROJECT_ID, location="us-central1")

async def _query_async(model: GenerativeModel, i: int) -> str:
print(f"Sending request {i}")
response = await model.generate_content_async("message")

return response.text

async def run_pipeline_async() -> str:
model = GenerativeModel("gemini-1.5-pro-002")

query_jobs = asyncio.gather(*[_query_async(model, i) for i in range(5)])
query_responses = await query_jobs

return query_responses

result = asyncio.run(run_pipeline_async())
print(result)

Когда я выполняю это, я получаю следующий результат:

Код: Выделить всё

Sending request 0
Sending request 1
Sending request 2
Sending request 3
Sending request 4

до исключения:

Код: Выделить всё

Exception has occurred: ResourceExhausted
429 Online prediction request quota exceeded for gemini-1.5-pro. Please try again later with backoff.
grpc.aio._call.AioRpcError: 

The above exception was the direct cause of the following exception:

File "D:\Users\Harry\Code\PropScan\document\rate_limit_test.py", line 18, in _query_async
response = await model.generate_content_async("message")
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "D:\Users\Harry\Code\PropScan\document\rate_limit_test.py", line 26, in run_pipeline_async
query_responses = await query_jobs
^^^^^^^^^^^^^^^^
File "D:\Users\Harry\Code\PropScan\document\rate_limit_test.py", line 30, in 
result = asyncio.run(run_pipeline_async())
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
google.api_core.exceptions.ResourceExhausted: 429 Online prediction request quota exceeded for gemini-1.5-pro. Please try again later with backoff.

Это последовательное поведение. В документации указано, что квота по умолчанию составляет 60 об/мин, поэтому я не знаю, почему меня ограничивают до 5 об/мин, и не могу найти никакой документации, объясняющей это. Некоторые сообщения в Интернете предполагают, что это может быть связано с тем, что я использую бесплатную пробную учетную запись, но я подтвердил в консоли, что использую платную учетную запись (хотя еще остались бесплатные кредиты).

Я немного не понимаю, где идти отсюда... Квота и система Панель управления ограничениями мне вообще не помогает (думаю, я смотрю здесь правильно?)
[img]https:/ /i.sstatic.net/nSRiqejP.png[/img]

Буду признателен за любую помощь, спасибо!

Подробнее здесь: https://stackoverflow.com/questions/793 ... -vertex-ai

1735430344

Anonymous

Пожалуйста, мне нужна помощь в этом туманном вопросе.
У меня есть очень простой скрипт, который вызывает генерацию модели в Vertex AI:
< pre class="lang-py Prettyprint-override">[code]import vertexai
from vertexai.preview.generative_models import GenerativeModel
import asyncio

PROJECT_ID = "MY_PROJECT"
vertexai.init(project=PROJECT_ID, location="us-central1")

async def _query_async(model: GenerativeModel, i: int) -> str:
print(f"Sending request {i}")
response = await model.generate_content_async("message")

return response.text

async def run_pipeline_async() -> str:
model = GenerativeModel("gemini-1.5-pro-002")

query_jobs = asyncio.gather(*[_query_async(model, i) for i in range(5)])
query_responses = await query_jobs

return query_responses

result = asyncio.run(run_pipeline_async())
print(result)
[/code]
Когда я выполняю это, я получаю следующий результат:
[code]Sending request 0
Sending request 1
Sending request 2
Sending request 3
Sending request 4
[/code]
до исключения:
[code]Exception has occurred: ResourceExhausted
429 Online prediction request quota exceeded for gemini-1.5-pro. Please try again later with backoff.
grpc.aio._call.AioRpcError: 

The above exception was the direct cause of the following exception:

File "D:\Users\Harry\Code\PropScan\document\rate_limit_test.py", line 18, in _query_async
response = await model.generate_content_async("message")
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "D:\Users\Harry\Code\PropScan\document\rate_limit_test.py", line 26, in run_pipeline_async
query_responses = await query_jobs
^^^^^^^^^^^^^^^^
File "D:\Users\Harry\Code\PropScan\document\rate_limit_test.py", line 30, in 
result = asyncio.run(run_pipeline_async())
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
google.api_core.exceptions.ResourceExhausted: 429 Online prediction request quota exceeded for gemini-1.5-pro. Please try again later with backoff.
[/code]
Это последовательное поведение. В документации указано, что квота по умолчанию составляет 60 об/мин, поэтому я не знаю, почему меня ограничивают до 5 об/мин, и не могу найти никакой документации, объясняющей это. Некоторые сообщения в Интернете предполагают, что это может быть связано с тем, что я использую бесплатную пробную учетную запись, но я подтвердил в консоли, что использую платную учетную запись (хотя еще остались бесплатные кредиты).
[img]https://i.sstatic.net/JfwkTgI2.png[/img]

Я немного не понимаю, где идти отсюда... Квота и система Панель управления ограничениями мне вообще не помогает (думаю, я смотрю здесь правильно?)
[img]https:/ /i.sstatic.net/nSRiqejP.png[/img]

Буду признателен за любую помощь, спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79314756/limited-to-5-rpm-on-vertex-ai[/url]