Я нашел фрагмент кода для тонкой настройки модели Gemma-3 4B на наборе данных OCR, который преобразует рукописные математические формулы в LaTeX. Первоначальный автор поделился своими результатами, показывающими около **38 миллионов обучаемых параметров** при использовании LoRA.
Я точно скопировал код — не изменяя ни единой строки — и запустил его в Google Colab, используя библиотеку Unsloth для тонкой настройки LoRA. Однако во время обучения он сообщает о **1,4 миллиардах обучаемых параметров** вместо 38 миллионов.
Я не уверен, почему происходит такая огромная разница, тем более что код идентичен оригиналу. Кто-нибудь знает, что может быть причиной этого несоответствия?
Подробнее здесь: https://stackoverflow.com/questions/798 ... gemma-3-4b
Мобильная версия