Почему применение двойного использования адаптера LORA, когда базовая модель заранее перемещена в графический процессор? - Цифровое Кемерово

Почему применение двойного использования адаптера LORA, когда базовая модель заранее перемещена в графический процессор? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему применение двойного использования адаптера LORA, когда базовая модель заранее перемещена в графический процессор?

Цитата

Сообщение Anonymous » 24 авг 2025, 11:34

Я сталкиваюсь с контринтуальной проблемой VRAM в Pytorch при применении адаптера LORA к вложенному NN.Module и хотел бы объяснить объяснение базового механизма. Только добавляет небольшой (~ 100 МБ) адаптер LORA к этой модели клипа.import torch
import torch.nn as nn
from peft import PeftModel # For demonstration

# Inner Module (Base Model)
class CLIP(nn.Module):
def __init__(self, arch='ViT-H-14-quickgelu', pretrained='dfn5b', device=torch.device('cuda:0')):
super().__init__()

self.model, self.train_transform, self.test_transform = open_clip.create_model_and_transforms(arch, pretrained=pretrained)
self.tokenizer = open_clip.get_tokenizer(arch)

try: self.image_size, _ = self.model.visual.image_size
except TypeError: self.image_size = self.model.visual.image_size

self.device = device

self.model.eval()
self.model.to(self.device) #
# Outer Wrapper Class
class TTD(nn.Module):
def __init__(self, arch, backbone, lora_path, device=torch.device('cuda:0'), pamr=False):
super().__init__()

self.model = CLIP(arch, backbone, device=device)
lora_utils.apply_lora_v3(self.model.model.visual, 64)
self.model.load_state_dict(torch.load(lora_path))

self.eval()
self.to(device)

self.arch = arch
self.device = device

self.denorm_fn = T.Denormalize()
self.image_transform = T.Compose([T.Normalize(), T.ToTensor()])

def to(self, device):
super().to(device)
self.device = device
self.model = self.model.to(device)
return self
...
< /code>
#defined TTD
class TTDModel:
def __init__(self) -> None:
self.model = TTD_networks.TTD(
'ViT-H-14-quickgelu',
'dfn2b',
device=torch.device('cuda'),
tag_path=f'{APP_DIR}data/250818_OGQxMYBOX_tag_embedding.json'
)
...
< /code>
The Phenomenon:
When I run the code with the self.model.to(device) line inside CLIP.__init__, использование VRAM не является ожидаемым 4,1 ГБ. Вместо этого, он задумывается до ~ 8 ГБ. Я предполагаю, что начальный вызов (device) в клипе помещает базовую модель в GPU, а затем окончательный Self.to (Device) Call в TTD каким-то образом создает вторую, отдельную копию модели PEFT, нанесенной в PEFT, на GPU. проблема. Тем не менее, я хочу понять основную причину такого поведения. Каков внутренний механизм, который не позволяет модели PEFT просто повторно использовать память уже на базовой модели-GPU, а вместо этого выделяет совершенно новый блок 4 ГБ? < /P>
open_clip_torch==2.32.0
torch==2.3.1
cuda\>=12.1

Подробнее здесь: https://stackoverflow.com/questions/797 ... l-is-moved

Реклама

1756024494

Anonymous

 Я сталкиваюсь с контринтуальной проблемой VRAM в Pytorch при применении адаптера LORA к вложенному NN.Module и хотел бы объяснить объяснение базового механизма. Только добавляет небольшой (~ 100 МБ) адаптер LORA к этой модели клипа.import torch
import torch.nn as nn
from peft import PeftModel # For demonstration

# Inner Module (Base Model)
class CLIP(nn.Module):
def __init__(self, arch='ViT-H-14-quickgelu', pretrained='dfn5b', device=torch.device('cuda:0')):
super().__init__()

self.model, self.train_transform, self.test_transform = open_clip.create_model_and_transforms(arch, pretrained=pretrained)
self.tokenizer = open_clip.get_tokenizer(arch)

try: self.image_size, _ = self.model.visual.image_size
except TypeError: self.image_size = self.model.visual.image_size

self.device = device

self.model.eval()
self.model.to(self.device) # 
# Outer Wrapper Class
class TTD(nn.Module):
def __init__(self, arch, backbone, lora_path, device=torch.device('cuda:0'), pamr=False):
super().__init__()

self.model = CLIP(arch, backbone, device=device)
lora_utils.apply_lora_v3(self.model.model.visual, 64)
self.model.load_state_dict(torch.load(lora_path))

self.eval()
self.to(device)

self.arch = arch
self.device = device

self.denorm_fn = T.Denormalize()
self.image_transform = T.Compose([T.Normalize(), T.ToTensor()])

def to(self, device):
super().to(device)
self.device = device
self.model = self.model.to(device)
return self
...
< /code>
#defined TTD
class TTDModel:
def __init__(self) -> None:
self.model = TTD_networks.TTD(
'ViT-H-14-quickgelu',
'dfn2b',
device=torch.device('cuda'),
tag_path=f'{APP_DIR}data/250818_OGQxMYBOX_tag_embedding.json'
)
...
< /code>
The Phenomenon:
When I run the code with the self.model.to(device) line inside CLIP.__init__, использование VRAM не является ожидаемым 4,1 ГБ. Вместо этого, он задумывается до ~ 8 ГБ. Я предполагаю, что начальный вызов (device)  в клипе помещает базовую модель в GPU, а затем окончательный Self.to (Device)  Call в TTD каким-то образом создает вторую, отдельную копию модели PEFT, нанесенной в PEFT, на GPU. проблема. Тем не менее, я хочу понять основную причину такого поведения. Каков внутренний механизм, который не позволяет модели PEFT просто повторно использовать память уже на базовой модели-GPU, а вместо этого выделяет совершенно новый блок 4 ГБ? < /P>
open_clip_torch==2.32.0
torch==2.3.1
cuda\>=12.1
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79744315/why-does-applying-a-lora-adapter-double-vram-usage-when-the-base-model-is-moved[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему применение двойного использования адаптера LORA, когда базовая модель заранее перемещена в графический процессор?

Последнее сообщение Anonymous « 24 авг 2025, 20:36
Добавлено в форуме Python

Anonymous » 24 авг 2025, 20:36 » в форуме Python

Я сталкиваюсь с контринтуальной проблемой VRAM в Pytorch при применении адаптера LORA к вложенному NN.Module и хотел бы объяснить объяснение базового механизма. Только добавляет небольшой (~ 100 МБ) адаптер LORA к этой модели клипа.import torch...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
24 авг 2025, 20:36
Tensorflow не может выбрать графический процессор, хотя графический процессор распознан

Последнее сообщение Anonymous « 08 дек 2023, 14:40
Добавлено в форуме Python

Anonymous » 08 дек 2023, 14:40 » в форуме Python

Я пытался настроить тензорный поток для работы с моим графическим процессором (GTX 1070). Я установил последние версии драйверов NVIDIA 546.29-desktop-win10-win11-64bit-international-dch-whql.exe
Вывод из nvidia-sim...

0 Ответы

97 Просмотры

Последнее сообщение Anonymous
08 дек 2023, 14:40
Tensorflow не может выбрать графический процессор, хотя графический процессор распознан

Последнее сообщение Гость « 08 дек 2023, 15:53
Добавлено в форуме Python

Гость » 08 дек 2023, 15:53 » в форуме Python

Я пытался настроить тензорный поток для работы с моим графическим процессором (GTX 1070). Я установил последние версии драйверов NVIDIA 546.29-desktop-win10-win11-64bit-international-dch-whql.exe
Вывод из nvidia-sim...

0 Ответы

84 Просмотры

Последнее сообщение Гость
08 дек 2023, 15:53
Tensorflow не может выбрать графический процессор, хотя графический процессор распознан

Последнее сообщение Гость « 08 дек 2023, 15:53
Добавлено в форуме Python

Гость » 08 дек 2023, 15:53 » в форуме Python

Я пытался настроить тензорный поток для работы с моим графическим процессором (GTX 1070). Я установил последние версии драйверов NVIDIA 546.29-desktop-win10-win11-64bit-international-dch-whql.exe
Вывод из nvidia-sim...

0 Ответы

93 Просмотры

Последнее сообщение Гость
08 дек 2023, 15:53
Почему optuna нагружает мой процессор, а не графический процессор, когда для устройства установлено значение «cuda»?

Последнее сообщение Anonymous « 01 июн 2024, 00:13
Добавлено в форуме Python

Anonymous » 01 июн 2024, 00:13 » в форуме Python

Я использую optuna для настройки гиперпараметров, и хотя на моем устройстве установлено значение «cuda», и оно фактически работает на cuda, так как процессору требуется 40 минут для завершения 10 эпох, в то время как в настоящее время это занимает...

0 Ответы

125 Просмотры

Последнее сообщение Anonymous
01 июн 2024, 00:13

Вернуться в «Python»

Programmiererforum