Почему LoRA показывает 1,4B обучаемых параметров вместо 38M при точной настройке Gemma 3 4B?Python

Программы на Python
Ответить
Anonymous
 Почему LoRA показывает 1,4B обучаемых параметров вместо 38M при точной настройке Gemma 3 4B?

Сообщение Anonymous »

Я нашел фрагмент кода для тонкой настройки модели Gemma-3 4B на наборе данных OCR, который преобразует рукописные математические формулы в LaTeX. Первоначальный автор поделился своими результатами, показывающими около **38 миллионов обучаемых параметров** при использовании LoRA.
Я точно скопировал код — не изменяя ни единой строки — и запустил его в Google Colab, используя библиотеку Unsloth для тонкой настройки LoRA. Однако во время обучения он сообщает о **1,4 миллиардах обучаемых параметров** вместо 38 миллионов.
Я не уверен, почему происходит такая огромная разница, тем более что код идентичен оригиналу. Кто-нибудь знает, что может быть причиной этого несоответствия?

Подробнее здесь: https://stackoverflow.com/questions/798 ... gemma-3-4b
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»