Использование немного другой архитектуры между предварительной тренировкой и точной настройкой

Использование немного другой архитектуры между предварительной тренировкой и точной настройкой ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Использование немного другой архитектуры между предварительной тренировкой и точной настройкой

Цитата

Сообщение Гость » 14 мар 2024, 11:51

Заранее извиняюсь, если мое следующее описание недостаточно полно.
Предположим, я обучил простую модель, подобную Resnet, со следующей структурой основных блоков:

Код: Выделить всё

self.layer1 = self._make_layer(self.inplanes, outplanes[0], num_blocks = 3, stride=1)
self.layer2 = self._make_layer(self.inplanes, outplanes[1], num_blocks = 3, stride=2)
self.layer3 = self._make_layer(self.inplanes, outplanes[2], num_blocks = 3, stride=2)
self.layer4 = self._make_layer(inplanes = outplanes[2],  planes=outplanes[3], num_blocks = 3, stride=2)

Теперь я хочу выполнить тонкую настройку этой модели. Но вместо того, чтобы повторять блоки одной и той же формы 3 раза, я хочу объединить их в один слой и загрузить в свою модель точной настройки:

Код: Выделить всё

self.layer1 = self._make_layer(self.inplanes, outplanes[0], num_blocks = 1, stride=1)
self.layer2 = self._make_layer(self.inplanes, outplanes[1], num_blocks = 1, stride=2)
self.layer3 = self._make_layer(self.inplanes, outplanes[2], num_blocks = 1, stride=2)
self.layer4 = self._make_layer(inplanes = outplanes[2],  planes=outplanes[3], num_blocks = 1, stride=2)

So essentially, it's the same model, but I am reducing the number of repeatation by condensing the learned weights into a single one. To be noted that the repeated blocks all have the same shape.
Is there any way to implement this or it's simply not mathematically or theoretically correct? I think it's somewhat similar to knowledge distillation - conceptually?
In fact, I was thinking whether I could also modify the kernel size similarly.

Источник: https://stackoverflow.com/questions/781 ... ine-tuning

1710406285

Гость


Заранее извиняюсь, если мое следующее описание недостаточно полно.
Предположим, я обучил простую модель, подобную Resnet, со следующей структурой основных блоков:
[code]self.layer1 = self._make_layer(self.inplanes, outplanes[0], num_blocks = 3, stride=1)
self.layer2 = self._make_layer(self.inplanes, outplanes[1], num_blocks = 3, stride=2)
self.layer3 = self._make_layer(self.inplanes, outplanes[2], num_blocks = 3, stride=2)
self.layer4 = self._make_layer(inplanes = outplanes[2],  planes=outplanes[3], num_blocks = 3, stride=2)
[/code]
Теперь я хочу выполнить тонкую настройку этой модели. Но вместо того, чтобы повторять блоки одной и той же формы 3 раза, я хочу объединить их в один слой и загрузить в свою модель точной настройки:
[code]self.layer1 = self._make_layer(self.inplanes, outplanes[0], num_blocks = 1, stride=1)
self.layer2 = self._make_layer(self.inplanes, outplanes[1], num_blocks = 1, stride=2)
self.layer3 = self._make_layer(self.inplanes, outplanes[2], num_blocks = 1, stride=2)
self.layer4 = self._make_layer(inplanes = outplanes[2],  planes=outplanes[3], num_blocks = 1, stride=2)
[/code]
So essentially, it's the same model, but I am reducing the number of repeatation by condensing the learned weights into a single one. To be noted that the repeated blocks all have the same shape.
Is there any way to implement this or it's simply not mathematically or theoretically correct? I think it's somewhat similar to knowledge distillation - conceptually?
In fact, I was thinking whether I could also modify the kernel size similarly.
 

Источник: [url]https://stackoverflow.com/questions/78157500/using-slightly-different-architecture-between-pretraining-and-fine-tuning[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Нужна помощь с точной настройкой моей нейронной сети модерации контента с Робертой. (Набор данных: Jigsaw)

Последнее сообщение Anonymous « 08 июн 2025, 19:31
Добавлено в форуме Python

Anonymous » 08 июн 2025, 19:31 » в форуме Python

Я не могу понять, как точно настроить мою нервную сеть с помощью призавинки и сделать ее многоклассификатором, а не двоичного классификатора (несколько типов вывода, а не положительных и отрицательных) и нуждаются в помощи при этом.
(с pytorch)....

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
08 июн 2025, 19:31
Нужна помощь с точной настройкой моей нейронной сети модерации контента с Робертой. (Набор данных: Jigsaw)

Последнее сообщение Anonymous « 08 июн 2025, 21:35
Добавлено в форуме Python

Anonymous » 08 июн 2025, 21:35 » в форуме Python

Я не могу понять, как точно настроить мою нервную сеть с помощью призавинки и сделать ее многоклассификатором, а не двоичного классификатора (несколько типов вывода, а не положительных и отрицательных) и нуждаются в помощи при этом.
(с pytorch)....

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
08 июн 2025, 21:35
Каковы различия между предварительной нагрузкой и предварительной фиксацией в HTML?

Последнее сообщение Anonymous « 24 янв 2025, 11:55
Добавлено в форуме Html

Anonymous » 24 янв 2025, 11:55 » в форуме Html

preload и prefetch оба используются для заранее запроса ресурсов, чтобы более поздняя загрузка ресурсов могла быть быстрой. Кажется, что я могу обменить их, не замечая ничего отличия:

Каковы их различия?

Подробнее здесь:

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 11:55
Использование Axolotl ai, ошибка OOM при точной настройке

Последнее сообщение Anonymous « 19 дек 2024, 00:45
Добавлено в форуме Python

Anonymous » 19 дек 2024, 00:45 » в форуме Python

Я попробовал загрузить эту модель (THUDM/LongWriter-llama3.1-8b), и получил ошибку OOM.
вот блокнот, который я использовал, кстати, он работает и для моделей меньшего размера: -

Я уже пробовал много вещей, например: -
градиент контрольная точка...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
19 дек 2024, 00:45
Как скомпилировать программу с использованием LLVM для другой целевой архитектуры?

Последнее сообщение Anonymous « 12 янв 2025, 14:28
Добавлено в форуме C++

Anonymous » 12 янв 2025, 14:28 » в форуме C++

Я хочу скомпилировать базовую программу hello.c в собственную архитектуру x86, используя LLVM/Clang для генерации промежуточного продукта и сборки.
Я использовал следующие команды:

clang -O3 -emit-llvm hello.c -c -o hello.bc
llc hello.bc -o...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
12 янв 2025, 14:28

Вернуться в «Python»