Проблема с моделью Llama 2-7B, производящая ограниченное количество токенов 511

Проблема с моделью Llama 2-7B, производящая ограниченное количество токенов 511 ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с моделью Llama 2-7B, производящая ограниченное количество токенов 511

Цитата

Сообщение Anonymous » 01 дек 2024, 15:12

Я столкнулся с проблемой с моделью Llama 2-7B, где выход постоянно ограничен только 511 токенами, хотя теоретически модель должна быть способна выдавать максимум 4096 токенов.Я попробовал установить для параметра max_tokens более высокие значения, например 3000, и рассчитал доступные токены, вычитая токены подсказки из общего количества токенов модели. лимит токенов (4096 токенов). Однако, несмотря на эти корректировки, я продолжаю получать выходные данные, ограниченные 511 токенами.
Вот фрагмент кода, который я использую для взаимодействия с моделью:

Код: Выделить всё

import psutil
import os
import warnings
from llama_cpp import Llama

# Suppress warnings
warnings.filterwarnings("ignore")

# Path to the model
model_path = "C:/Llama_project/models/llama-2-7b-chat.Q2_K.gguf"

# Load the model
llm = Llama(model_path=model_path)

# System message to set the behavior of the assistant
system_message = "You are a helpful assistant."

# Function to ask questions
def ask_question(question):
# Use user input for the question prompt
prompt = f"Answer the following question: {question}"

# Calculate the remaining tokens for output based on the model's 4096 token limit
prompt_tokens = len(prompt.split())  # Rough token count estimate
max_output_tokens = 4096 - prompt_tokens  # Tokens left for output

# Monitor memory usage before calling the model
process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 ** 2  # Memory in MB

# Get the output from the model with the calculated max tokens for output
output = llm(prompt=prompt, max_tokens=max_output_tokens, temperature=0.7, top_p=1.0)

# Monitor memory usage after calling the model
mem_after = process.memory_info().rss / 1024 ** 2  # Memory in MB

# Clean the output and return only the answer text
return output["choices"][0]["text"].strip()

# Main loop for user interaction
while True:
user_input = input("Ask a question (or type 'exit' to quit): ")

if user_input.lower() == 'exit':
print("Exiting the program.")
break

# Get the model's response
answer = ask_question(user_input)

# Print only the answer
print(f"Answer: {answer}")

Сведения о проблеме:

Модель: Llama 2-7B (версия Q2_K)
Ожидаемый результат: я ожидал ответа, близкого к максимальному лимиту токенов (3000 или более токенов).
Фактический результат: вывод ограничен 511 токенами, независимо от запроса длина.

Пробовал:

Установить max_tokens на 3000 или выше.
Расчет доступных токенов путем вычитания длины запроса из общего лимита токенов модели.

Я ожидаю, что модель генерировать ответы, близкие к лимиту токена (в идеале ближе к 3000 токенов или более, в зависимости от ввода), но он продолжает выдавать ограниченное количество токенов 511.

Подробнее здесь: https://stackoverflow.com/questions/792 ... 511-tokens

1733055150

Anonymous

Я столкнулся с проблемой с моделью Llama 2-7B, где выход постоянно ограничен только 511 токенами, хотя теоретически модель должна быть способна выдавать максимум 4096 токенов.Я попробовал установить для параметра max_tokens более высокие значения, например 3000, и рассчитал доступные токены, вычитая токены подсказки из общего количества токенов модели. лимит токенов (4096 токенов). Однако, несмотря на эти корректировки, я продолжаю получать выходные данные, ограниченные 511 токенами.
Вот фрагмент кода, который я использую для взаимодействия с моделью:
[code]import psutil
import os
import warnings
from llama_cpp import Llama

# Suppress warnings
warnings.filterwarnings("ignore")

# Path to the model
model_path = "C:/Llama_project/models/llama-2-7b-chat.Q2_K.gguf"

# Load the model
llm = Llama(model_path=model_path)

# System message to set the behavior of the assistant
system_message = "You are a helpful assistant."

# Function to ask questions
def ask_question(question):
# Use user input for the question prompt
prompt = f"Answer the following question: {question}"

# Calculate the remaining tokens for output based on the model's 4096 token limit
prompt_tokens = len(prompt.split())  # Rough token count estimate
max_output_tokens = 4096 - prompt_tokens  # Tokens left for output

# Monitor memory usage before calling the model
process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 ** 2  # Memory in MB

# Get the output from the model with the calculated max tokens for output
output = llm(prompt=prompt, max_tokens=max_output_tokens, temperature=0.7, top_p=1.0)

# Monitor memory usage after calling the model
mem_after = process.memory_info().rss / 1024 ** 2  # Memory in MB

# Clean the output and return only the answer text
return output["choices"][0]["text"].strip()

# Main loop for user interaction
while True:
user_input = input("Ask a question (or type 'exit' to quit): ")

if user_input.lower() == 'exit':
print("Exiting the program.")
break

# Get the model's response
answer = ask_question(user_input)

# Print only the answer
print(f"Answer: {answer}")
[/code]
Сведения о проблеме:
[list]
[*]Модель: Llama 2-7B (версия Q2_K)
[*]Ожидаемый результат: я ожидал ответа, близкого к максимальному лимиту токенов (3000 или более токенов).
[*]Фактический результат: вывод ограничен 511 токенами, независимо от запроса длина.
[/list]
Пробовал:
[list]
[*]Установить max_tokens на 3000 или выше.
Расчет доступных токенов путем вычитания длины запроса из общего лимита токенов модели.
[/list]
Я ожидаю, что модель генерировать ответы, близкие к лимиту токена (в идеале ближе к 3000 токенов или более, в зависимости от ввода), но он продолжает выдавать ограниченное количество токенов 511. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79237584/issue-with-llama-2-7b-model-producing-output-limited-to-511-tokens[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

CohereAPIError: слишком много токенов: общее количество токенов в приглашении не может превышать 4081 — получено 15416

Последнее сообщение Anonymous « 25 май 2024, 19:52
Добавлено в форуме Python

Anonymous » 25 май 2024, 19:52 » в форуме Python

Я разработал приложение Streamlit, которое использует API Cohere для обработки естественного языка. Приложение позволяет пользователям задавать вопросы, которые затем обрабатываются с помощью Cohere API. Однако я столкнулся с проблемой, когда общее...

0 Ответы

80 Просмотры

Последнее сообщение Anonymous
25 май 2024, 19:52
Почему мой паук извлекает ограниченное количество предметов

Последнее сообщение Anonymous « 02 авг 2024, 08:20
Добавлено в форуме Python

Anonymous » 02 авг 2024, 08:20 » в форуме Python

Например, когда я использую сайт считывается только 37 элементов. Я понимаю, что для перехода на следующую страницу должна быть какая-то нумерация страниц, но на самой первой странице гораздо больше элементов, чем 37, и я не могу понять, почему...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
02 авг 2024, 08:20
Невозможно опубликовать документ в SharePoint, который имеет незначительный Verson 511

Последнее сообщение Anonymous « 21 авг 2025, 11:07
Добавлено в форуме C#

Anonymous » 21 авг 2025, 11:07 » в форуме C#

Мы используем MSGraph в SharePoint в течение нескольких лет. До сих пор ни один клиент не использовал второстепенные неверностями (я не знал, что это было там). Теперь на некоторых сайтах активируются второстепенные неверсии. Это означает, что если...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
21 авг 2025, 11:07
Невозможно опубликовать документ в SharePoint, который имеет незначительный Verson 511

Последнее сообщение Anonymous « 21 авг 2025, 22:07
Добавлено в форуме C#

Anonymous » 21 авг 2025, 22:07 » в форуме C#

Мы используем MS Graph в SharePoint в течение нескольких лет. До сих пор ни один клиент не использовал незначительные версии (я не знал, что он был там). Теперь на некоторых сайтах активируются второстепенные версии. Это означает, что если вы хотите...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
21 авг 2025, 22:07
Не удалось загрузить модель ламы по пути: ./Models/llama-7b.ggmlv3.q2_K.bin. Получена ошибка. Llama.__init__() получила

Последнее сообщение Anonymous « 23 сен 2023, 06:26
Добавлено в форуме Python

Anonymous » 23 сен 2023, 06:26 » в форуме Python

из langchain.llms импортировать LlamaCpp из импорта langchain PromptTemplate, LLMChain из langchain.callbacks.manager импортировать CallbackManager из langchain.callbacks.streaming_stdout импортировать StreamingStdOutCallbackHandler шаблон = Вопрос:...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
23 сен 2023, 06:26

Вернуться в «Python»