Настройка более быстрой модели R-CNN на PyTorch с помощью магистрали Swin Transformer V2

Настройка более быстрой модели R-CNN на PyTorch с помощью магистрали Swin Transformer V2 ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Настройка более быстрой модели R-CNN на PyTorch с помощью магистрали Swin Transformer V2

Цитата

Сообщение Anonymous » 10 окт 2024, 14:54

Для моего проекта по обнаружению объектов я некоторое время использовал модель fastrcnn_resnet50_fpn_v2. Мои входные изображения имеют высокое разрешение (около 3000 x 4000 пикселей), и я объединяю их в плитки размером 1200 x 1600 пикселей для обучения и вывода. Однако я изо всех сил пытаюсь эффективно обнаруживать небольшие объекты (размером всего 10 x 10 пикселей) с помощью этой модели.
Когда искал альтернативы, я прочитал о SwinTransformer V2 и Я нашел это многообещающим, особенно для приложений с изображениями высокого разрешения. Поскольку все изображения в моем наборе данных также имеют размер 1200 x 1600, и я не хочу их уменьшать, я хотел бы настроить Faster R-CNN для использования магистральной сети Swin V2 и, возможно, добавить FPN и реализовать Cascade R-CNN. голова. Однако я сталкиваюсь с проблемами несоответствия размеров позвоночника, шеи и головы RPN.
Это то, что я придумал на данный момент (я решил использовать базовую модель );

Код: Выделить всё

import torch
from torch import nn
from torchvision.models.detection import FasterRCNN
from torchvision.models.detection.rpn import AnchorGenerator
from torchvision.models.swin_transformer import swin_v2_b, Swin_V2_B_Weights
from torchvision.ops import MultiScaleRoIAlign
import torchvision.transforms as transforms
import requests
from PIL import Image

NUM_CLASSES = 100
trainable_layers = 2

class CustomSwin(nn.Module):
def __init__(self, backbone):
super().__init__()
self.backbone = backbone
self.out_channels = 1024

def forward(self, x):
return torch.permute(self.backbone(x), (0, 3, 1, 2))

backbone = swin_v2_b(weights=Swin_V2_B_Weights.DEFAULT)

# Remove the classification head
backbone.norm = nn.Identity()
backbone.permute = nn.Identity()
backbone.avgpool = nn.Identity()
backbone.flatten = nn.Identity()
backbone.head = nn.Identity()

# Freeze all parameters
for param in backbone.parameters():
param.requires_grad = False

# Unfreeze the last trainable_layers
for layer in list(backbone.features)[-trainable_layers:]:
for param in layer.parameters():
param.requires_grad = True

custom_backbone = CustomSwin(backbone)

# Added smaller sizes for really small objects
anchor_generator = AnchorGenerator(
sizes=((8, 16, 32, 64, 128, 256, 512),), aspect_ratios=((0.5, 1.0, 2.0),)
)

roi_pooler = MultiScaleRoIAlign(featmap_names=["0"], output_size=7, sampling_ratio=2)

model = FasterRCNN(
custom_backbone,
num_classes=NUM_CLASSES,
rpn_anchor_generator=anchor_generator,
box_roi_pool=roi_pooler,
min_size=1224,
max_size=1632,
)

Я не уверен, является ли текущая реализация оптимальной или добавление таких компонентов, как FPN (Feature Pyramid Network) или Cascade R-CNN, повысит производительность модели (у меня довольно большой набор данных) . Кто-нибудь успешно реализовал эти модификации? Будем очень признательны за любые рекомендации!

Подробнее здесь: https://stackoverflow.com/questions/790 ... 2-backbone

1728561289

Anonymous

Для моего проекта по обнаружению объектов я некоторое время использовал модель fastrcnn_resnet50_fpn_v2. Мои входные изображения имеют высокое разрешение (около 3000 x 4000 пикселей), и я объединяю их в плитки размером 1200 x 1600 пикселей для обучения и вывода. Однако я изо всех сил пытаюсь эффективно обнаруживать небольшие объекты (размером всего 10 x 10 пикселей) с помощью этой модели.
Когда искал альтернативы, я прочитал о SwinTransformer V2 и Я нашел это многообещающим, особенно для приложений с изображениями высокого разрешения. Поскольку все изображения в моем наборе данных также имеют размер 1200 x 1600, и я не хочу их уменьшать, я хотел бы настроить Faster R-CNN для использования магистральной сети Swin V2 и, возможно, добавить FPN и реализовать Cascade R-CNN. голова. Однако я сталкиваюсь с проблемами несоответствия размеров позвоночника, шеи и головы RPN.
Это то, что я придумал на данный момент (я решил использовать базовую модель );
[code]import torch
from torch import nn
from torchvision.models.detection import FasterRCNN
from torchvision.models.detection.rpn import AnchorGenerator
from torchvision.models.swin_transformer import swin_v2_b, Swin_V2_B_Weights
from torchvision.ops import MultiScaleRoIAlign
import torchvision.transforms as transforms
import requests
from PIL import Image

NUM_CLASSES = 100
trainable_layers = 2

class CustomSwin(nn.Module):
def __init__(self, backbone):
super().__init__()
self.backbone = backbone
self.out_channels = 1024

def forward(self, x):
return torch.permute(self.backbone(x), (0, 3, 1, 2))

backbone = swin_v2_b(weights=Swin_V2_B_Weights.DEFAULT)

# Remove the classification head
backbone.norm = nn.Identity()
backbone.permute = nn.Identity()
backbone.avgpool = nn.Identity()
backbone.flatten = nn.Identity()
backbone.head = nn.Identity()

# Freeze all parameters
for param in backbone.parameters():
param.requires_grad = False

# Unfreeze the last trainable_layers
for layer in list(backbone.features)[-trainable_layers:]:
for param in layer.parameters():
param.requires_grad = True

custom_backbone = CustomSwin(backbone)

# Added smaller sizes for really small objects
anchor_generator = AnchorGenerator(
sizes=((8, 16, 32, 64, 128, 256, 512),), aspect_ratios=((0.5, 1.0, 2.0),)
)

roi_pooler = MultiScaleRoIAlign(featmap_names=["0"], output_size=7, sampling_ratio=2)

model = FasterRCNN(
custom_backbone,
num_classes=NUM_CLASSES,
rpn_anchor_generator=anchor_generator,
box_roi_pool=roi_pooler,
min_size=1224,
max_size=1632,
)
[/code]
Я не уверен, является ли текущая реализация оптимальной или добавление таких компонентов, как FPN (Feature Pyramid Network) или Cascade R-CNN, повысит производительность модели (у меня довольно большой набор данных) . Кто-нибудь успешно реализовал эти модификации? Будем очень признательны за любые рекомендации! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79074104/customizing-a-faster-r-cnn-model-on-pytorch-with-swin-transformer-v2-backbone[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему предварительно обученный кодер Swin Transformer не работает на TPU, но работает на CPU в Colab?

Последнее сообщение Anonymous « 02 дек 2024, 16:35
Добавлено в форуме Python

Anonymous » 02 дек 2024, 16:35 » в форуме Python

Я работаю над задачей сегментации изображений и пытаюсь использовать предварительно обученный кодер Swin Transformer Large (Swin-L) для магистрали извлечения признаков. Код отлично работает на процессоре в Colab. Однако при переключении на TPU...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 16:35
Почему предварительно обученный кодер Swin Transformer не работает на TPU, но работает на CPU в Colab?

Последнее сообщение Anonymous « 03 дек 2024, 03:26
Добавлено в форуме Python

Anonymous » 03 дек 2024, 03:26 » в форуме Python

Я работаю над задачей сегментации изображений и пытаюсь использовать предварительно обученный кодер Swin Transformer Large (Swin-L) для магистрали извлечения признаков. Код отлично работает на процессоре в Colab. Однако при переключении на TPU...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
03 дек 2024, 03:26
Разница между входной формой для 1D CNN, 2D CNN и 3D CNN

Последнее сообщение Anonymous « 21 июл 2025, 09:35
Добавлено в форуме Python

Anonymous » 21 июл 2025, 09:35 » в форуме Python

Я впервые создаю модель CNN для классификации изображений, и я немного запутался в том, что будет формой ввода для каждого типа (1D CNN, 2D CNN, 3D CNN) и как исправить количество фильтров в слое свертки. Мои данные - 100x100x30, где 30 являются...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
21 июл 2025, 09:35
При написании быстрой сортировки в Python возможно ли одновременно иметь сигнатуру метода быстрой сортировки (arr) -> vo

Последнее сообщение Anonymous « 18 ноя 2024, 20:52
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 20:52 » в форуме Python

Я написал задание для класса структур данных, и мне не удается понять, как «реализовать основную функцию быстрой сортировки, которая рекурсивно сортирует подмассивы, сформированные путем разделения», что подразумевает, что рекурсия происходит в...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 20:52
При написании быстрой сортировки в Python возможно ли одновременно иметь сигнатуру метода быстрой сортировки (arr) -> vo

Последнее сообщение Anonymous « 18 ноя 2024, 22:47
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 22:47 » в форуме Python

Я написал задание для класса структур данных, и мне не удается понять, как «реализовать основную функцию быстрой сортировки, которая рекурсивно сортирует подмассивы, сформированные путем разделения», что подразумевает, что рекурсия происходит в...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 22:47

Вернуться в «Python»