При загрузке модели я заметил, что в некоторых примерах также указано torch_dtype=torch.float16.
Насколько я понимаю, torch_dtype в основном влияет на активацию и выход dtypes, а не на сами квантованные веса.
Однако я не совсем уверен, действительно ли установка torch_dtype=torch.float16 переопределяет квантование или оба могут безопасно сосуществовать.
С torch_dtype=torch.float16
Код: Выделить всё
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
bnb_config = BitsAndBytesConfig(load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Coder-3B")
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen2.5-Coder-3B",
quantization_config=bnb_config,
torch_dtype=torch.float16, #
Подробнее здесь: [url]https://stackoverflow.com/questions/79799225/does-setting-torch-dtype-torch-float16-override-8-bit-quantization-in-bitsandbyt[/url]