Управление лимитами токенов в GPT-4o для ввода и вывода переменной длины

Управление лимитами токенов в GPT-4o для ввода и вывода переменной длины ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Управление лимитами токенов в GPT-4o для ввода и вывода переменной длины

Цитата

Сообщение Anonymous » 17 дек 2024, 16:42

Я использую GPT-4o через Azure OpenAI API для обработки запросов переменной длины, но часто сталкиваюсь с исчерпанием токенов, когда общее количество токенов моих входных и выходных данных превышает максимальный предел модели (например, 8192 токена).
Поскольку длина ответов может значительно варьироваться в зависимости от сложности вопроса, как я могу динамически управлять входными и выходными токенами, чтобы гарантировать, что мои запросы не будут потерпеть неудачу?
Какой подход лучше всего подходит для:
Динамического расчета и резервирования токенов для вывода на основе длины входных данных?
Обработка длинных выходных данных, которые не может уместиться в один ответ?
Вот пример сценария:
Входной вопрос: «Опишите, как переход к низкоуглеродной экономике может повлиять на каждый продукт или инвестиционную стратегию». отеля Hilton."
Ожидается вывод: подробный ответ, охватывающий несколько стратегий, которые могут превышать лимит токенов.
Сейчас я использую Python SDK. Буду очень признателен за любые советы или примеры кода!
Установите статическое max_tokens:
Я попробовал установить статическое значение для max_tokens (например, 2000). , но это вызывало проблемы, когда приглашение на ввод было слишком длинным, и для вывода не оставалось места.
Разбивка ввода:
Я пытался вручную разбить более длинные вопросы на более мелкие запросы, но это непрактично для динамических запросы или системы реального времени.
Отслеживаемое использование токенов:
Я использовал инструменты подсчета токенов для расчета длины входного токена, но с трудом справлялся с динамической регулировкой лимита выходных токенов на основе входных данных. .
Попробовал запросы на продолжение:
Для длинных ответов я добавил дополнительные запросы, такие как «Продолжить с того места, где вы остановились», но такой подход приводил к неполным или избыточным ответам. результаты.

Подробнее здесь: https://stackoverflow.com/questions/792 ... and-output

1734442947

Anonymous

Я использую GPT-4o через Azure OpenAI API для обработки запросов переменной длины, но часто сталкиваюсь с исчерпанием токенов, когда общее количество токенов моих входных и выходных данных превышает максимальный предел модели (например, 8192 токена). 
Поскольку длина ответов может значительно варьироваться в зависимости от сложности вопроса, как я могу динамически управлять входными и выходными токенами, чтобы гарантировать, что мои запросы не будут потерпеть неудачу?
Какой подход лучше всего подходит для:
Динамического расчета и резервирования токенов для вывода на основе длины входных данных?
Обработка длинных выходных данных, которые не может уместиться в один ответ?
Вот пример сценария:
Входной вопрос: «Опишите, как переход к низкоуглеродной экономике может повлиять на каждый продукт или инвестиционную стратегию». отеля Hilton."
Ожидается вывод: подробный ответ, охватывающий несколько стратегий, которые могут превышать лимит токенов.
Сейчас я использую Python SDK. Буду очень признателен за любые советы или примеры кода!
Установите статическое max_tokens:
Я попробовал установить статическое значение для max_tokens (например, 2000). , но это вызывало проблемы, когда приглашение на ввод было слишком длинным, и для вывода не оставалось места.
Разбивка ввода:
Я пытался вручную разбить более длинные вопросы на более мелкие запросы, но это непрактично для динамических запросы или системы реального времени.
Отслеживаемое использование токенов:
Я использовал инструменты подсчета токенов для расчета длины входного токена, но с трудом справлялся с динамической регулировкой лимита выходных токенов на основе входных данных. .
Попробовал запросы на продолжение:
Для длинных ответов я добавил дополнительные запросы, такие как «Продолжить с того места, где вы остановились», но такой подход приводил к неполным или избыточным ответам. результаты. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79287992/managing-token-limits-in-gpt-4o-for-variable-length-input-and-output[/url]