Изменение модели Vision Transformer (ViT) в формате Timm для пользовательской головы в PyTorch

Изменение модели Vision Transformer (ViT) в формате Timm для пользовательской головы в PyTorch ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Изменение модели Vision Transformer (ViT) в формате Timm для пользовательской головы в PyTorch

Цитата

Сообщение Anonymous » 13 окт 2024, 18:24

Я работаю с моделью Vision Transformer (ViT), используя PyTorch и библиотеку timm. Моя цель — изменить модель ViT, чтобы заменить заголовок классификации по умолчанию пользовательским заголовком, который принимает среднее значение всех токенов и добавляет новый уровень классификации.
Сводка модели ViT по умолчанию в Тимм заканчивается так:

Код: Выделить всё

       LayerNorm-247             [-1, 197, 768]           1,536
Identity-248                  [-1, 768]               0
Dropout-249                  [-1, 768]               0
Linear-250                 [-1, 1000]         769,000
VisionTransformer-251                 [-1, 1000]               0

Чтобы удалить последние написанные мной слои:

Код: Выделить всё

class VisionTransformerWithoutHead(nn.Module):

def __init__(self, model_name):
super(VisionTransformerWithoutHead, self).__init__()

# Load the ViT model
vit_model = timm.create_model(model_name, pretrained=True)

# Remove the final layers
self.features = nn.Sequential(*list(vit_model.children())[:-1])

def forward(self, x):
# Forward pass through the modified model
output = self.features(x)
return output

Сводка теперь заканчивается:

Код: Выделить всё

       LayerNorm-247             [-1, 196, 768]           1,536
Identity-248             [-1, 196, 768]               0
Dropout-249             [-1, 196, 768]               0

Уменьшилось количество токенов со 197 до 196 и похоже удалился токен класса. Хотелось бы понять, почему это происходит и есть ли способ удалить только последние слои сохраняя при этом токен класса.

Подробнее здесь: https://stackoverflow.com/questions/779 ... in-pytorch

1728833060

Anonymous

Я работаю с моделью Vision Transformer (ViT), используя PyTorch и библиотеку timm. Моя цель — изменить модель ViT, чтобы заменить заголовок классификации по умолчанию пользовательским заголовком, который принимает среднее значение всех токенов и добавляет новый уровень классификации.
Сводка модели ViT по умолчанию в Тимм заканчивается так:
[code]       LayerNorm-247             [-1, 197, 768]           1,536
Identity-248                  [-1, 768]               0
Dropout-249                  [-1, 768]               0
Linear-250                 [-1, 1000]         769,000
VisionTransformer-251                 [-1, 1000]               0

[/code]
Чтобы удалить последние написанные мной слои:
[code]class VisionTransformerWithoutHead(nn.Module):

def __init__(self, model_name):
super(VisionTransformerWithoutHead, self).__init__()

# Load the ViT model
vit_model = timm.create_model(model_name, pretrained=True)

# Remove the final layers
self.features = nn.Sequential(*list(vit_model.children())[:-1])

def forward(self, x):
# Forward pass through the modified model
output = self.features(x)
return output
[/code]
Сводка теперь заканчивается:
[code]       LayerNorm-247             [-1, 196, 768]           1,536
Identity-248             [-1, 196, 768]               0
Dropout-249             [-1, 196, 768]               0
[/code]
Уменьшилось количество токенов со 197 до 196 и похоже удалился токен класса. Хотелось бы понять, почему это происходит и есть ли способ удалить только последние слои сохраняя при этом токен класса. 

Подробнее здесь: [url]https://stackoverflow.com/questions/77934105/modifying-vision-transformer-vit-model-in-timm-for-custom-head-in-pytorch[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Изменение модели Vision Transformer (ViT) в timm для пользовательской головы в PyTorch

Последнее сообщение Anonymous « 10 окт 2024, 13:35
Добавлено в форуме Python

Anonymous » 10 окт 2024, 13:35 » в форуме Python

Я работаю с моделью Vision Transformer (ViT), используя PyTorch и библиотеку timm. Моя цель — изменить модель ViT, чтобы заменить заголовок классификации по умолчанию пользовательским заголовком, который принимает среднее значение всех токенов и...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 13:35
Селен без головы против без головы. Я не могу заставить селен для установки поле, используя режим без головы

Последнее сообщение Anonymous « 02 авг 2025, 18:31
Добавлено в форуме Python

Anonymous » 02 авг 2025, 18:31 » в форуме Python

Я увидел, что мне нужно добавить размер окна, однако это не решило мою проблему
Вот работающий без головы код
# _-_-_- Non Headless -_-_-_
from selenium import webdriver
from selenium.webdriver.common.by import By
from...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
02 авг 2025, 18:31
Селен без головы против без головы. Я не могу получить селен для установки поле, используя режим без головы

Последнее сообщение Anonymous « 03 авг 2025, 11:57
Добавлено в форуме Python

Anonymous » 03 авг 2025, 11:57 » в форуме Python

Я увидел, что мне нужно добавить размер окна, однако это не решило мою проблему
Вот работающий без головы код
# _-_-_- Non Headless -_-_-_
from selenium import webdriver
from selenium.webdriver.common.by import By
from...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 авг 2025, 11:57
Селен без головы против без головы. Я не могу получить селен для установки поле, используя режим без головы

Последнее сообщение Anonymous « 04 авг 2025, 16:45
Добавлено в форуме Python

Anonymous » 04 авг 2025, 16:45 » в форуме Python

Я увидел, что мне нужно добавить размер окна, однако это не решило мою проблему
Вот работающий без головы код
# _-_-_- Non Headless -_-_-_
from selenium import webdriver
from selenium.webdriver.common.by import By
from...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
04 авг 2025, 16:45
Ошибка: формы mat1 и mat2 не могут быть умножены (30x50176 и 768x768) в Vision Transformer crom Scratch Pytorch

Последнее сообщение Anonymous « 04 мар 2024, 11:47
Добавлено в форуме Python

Anonymous » 04 мар 2024, 11:47 » в форуме Python

I have just started doing Vision Transformer from scratch using pytorch. And the I got error like this when I run the training helper code. I know it is about the shape is not match, but I don't know which one I should do. The code is like this :...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
04 мар 2024, 11:47

Вернуться в «Python»