Конфигурация токенизатора — MLX

Конфигурация токенизатора — MLX ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 30 янв 2026, 00:55

Сейчас я пытаюсь загрузить модель в MLX. Но когда я загружаю модель и использую токенизатор, возникает следующая проблема:

с неправильным шаблоном регулярного выражения: https://huggingface.co/mistralai/Mistra ... e709447d5e. Это приведет к неправильной токенизации. Чтобы устранить эту проблему, вам следует установить флаг fix_mistral_regex=True при загрузке этого токенизатора.

Но я не понимаю, как это сделать в моем коде:
from mlx_lm import load, generate

out = load("mlx-community/translategemma-12b-it-4bit")
if len(out) == 2:
model, tokenizer = out
else:
model, tokenizer, struct = out

prompt = "Write a story about Einstein"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True
)

text = generate(model, tokenizer, prompt=prompt, verbose=True)

Подробнее здесь: https://stackoverflow.com/questions/798 ... ration-mlx

1769723702

Anonymous

Сейчас я пытаюсь загрузить модель в MLX. Но когда я загружаю модель и использую токенизатор, возникает следующая проблема:

с неправильным шаблоном регулярного выражения: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503/discussions/84#69121093e8b480e709447d5e. Это приведет к неправильной токенизации. Чтобы устранить эту проблему, вам следует установить флаг fix_mistral_regex=True при загрузке этого токенизатора.

Но я не понимаю, как это сделать в моем коде:
from mlx_lm import load, generate

out = load("mlx-community/translategemma-12b-it-4bit")
if len(out) == 2:
model, tokenizer = out
else:
model, tokenizer, struct = out

prompt = "Write a story about Einstein"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True
)

text = generate(model, tokenizer, prompt=prompt, verbose=True)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79870692/tokenizer-configuration-mlx[/url]