Обучение с несколькими графическими процессорами медленнее, чем обучение с одним графическим процессором, с использовани

Обучение с несколькими графическими процессорами медленнее, чем обучение с одним графическим процессором, с использовани ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обучение с несколькими графическими процессорами медленнее, чем обучение с одним графическим процессором, с использовани

Цитата

Сообщение Anonymous » 12 дек 2024, 23:11

Я собрал фиктивную модель молнии Pytorch специально для сравнения времени, необходимого для завершения обучения с несколькими графическими процессорами (3 графических процессора, использующих DDP, называемых 3G) и обучения с одним графическим процессором (называемых 1G). Проблема в том, что процесс обучения 1G всегда короче, чем процесс обучения 3G.
Некоторые варианты, которые я пробовал:
< ol>
[*]Я перешел от меньшего размера партии (16) к большему (256).
[*]Я экспериментировал с добавлением до 8 дополнительных скрытых слоев.
[*]Я экспериментировал с аккумулировать_град_батчи в параметрах трейнера.

К сожалению, ни одна из этих настроек не привела к каким-либо улучшениям. Возможно, моя модель слишком проста для того, чтобы процесс с несколькими графическими процессорами был лучше, но я слишком новичок в обучении с несколькими графическими процессорами, чтобы заявить об этой проблеме, и мои эксперименты не привели к каким-либо улучшениям. Я видел варианты этого вопроса о переполнении стека, но они обычно направлены на устранение ошибок. В моем случае мне интересно, почему производительность так снижается, особенно при использовании кода молнии pytorch.
Мой вопрос: Есть ли какие-либо ключевые проблемы с этим фиктивным примером, который приведет к тому, что процесс с одним графическим процессором превзойдет процесс с несколькими графическими процессорами?

Код: Выделить всё

import pytorch_lightning as pl
from pytorch_lightning import LightningModule, LightningDataModule
from torch import nn
from torch.utils.data import Dataset, DataLoader
import torch
import time
import wandb
from pytorch_lightning.loggers import WandbLogger
import pynvml

class SimpleDataset(Dataset):
def __init__(self, size):
self.size = size

def __len__(self):
return self.size

def __getitem__(self, idx):
# Generate some random data
x = torch.randn(1, 10)
y = torch.randn(1)
return x, y

class SimpleDataModule(LightningDataModule):
def __init__(self, batch_size, size):
super().__init__()
self.batch_size = batch_size
self.size = size

def setup(self, stage=None):
self.dataset = SimpleDataset(self.size)

def train_dataloader(self):
return DataLoader(self.dataset, batch_size=self.batch_size, shuffle=True)

def val_dataloader(self):
return DataLoader(self.dataset, batch_size=self.batch_size)

class SimpleModel(LightningModule):
def __init__(self):
super().__init__()
self.fc1 = nn.Linear(10, 256)
self.fc2 = nn.Linear(256, 256)
self.fc3 = nn.Linear(256, 256)
self.fc4 = nn.Linear(256, 1)

def forward(self, x):
x = torch.relu(self.fc1(x))
x = torch.relu(self.fc2(x))
x = torch.relu(self.fc3(x))
x = self.fc4(x)
return x

def training_step(self, batch, batch_idx):
x, y = batch
y_pred = self(x)
loss = nn.MSELoss()(y_pred, y)
self.log('train_loss', loss)

# Get individual GPU utilization
pynvml.nvmlInit()
utilization = []
for i in range(pynvml.nvmlDeviceGetCount()):
handle = pynvml.nvmlDeviceGetHandleByIndex(i)
utilization.append(pynvml.nvmlDeviceGetUtilizationRates(handle).gpu)
pynvml.nvmlShutdown()

# Log individual GPU utilization
for i, util in enumerate(utilization):
self.log(f'gpu_{i}_utilization', util)

return loss

def validation_step(self, batch, batch_idx):
x, y = batch
y_pred = self(x)
loss = nn.MSELoss()(y_pred, y)
self.log('val_loss', loss)
return loss

def configure_optimizers(self):
return torch.optim.Adam(self.parameters(), lr=0.01)

data_module = SimpleDataModule(batch_size=256, size=5000)
model = SimpleModel()

start_time = time.time()

wandb_logger = WandbLogger(project='simple_model')

trainer = pl.Trainer(strategy='ddp', devices=3, max_epochs=200, accumulate_grad_batches=3, logger=wandb_logger)

trainer.fit(model, data_module)
if trainer.is_global_zero:
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Training completed in {elapsed_time:.2f} seconds")

Некоторые показатели: я использовал веса и смещения, чтобы отслеживать использование графического процессора, чтобы посмотреть, прольет ли это свет на проблему. Оно показало, что процесс обучения 3G с течением времени использовал спорадическое использование графического процессора, в то время как процесс обучения 1G оставался относительно постоянным. Я подозреваю, что это и есть суть проблемы, но неясно, как это будет исправлено. Скриншот этих результатов приведен ниже.

Есть ли в коде какой-либо явный недостаток, исправление которого позволило бы процессу обучения 3G превзойти процесс обучения 1G?

Подробнее здесь: https://stackoverflow.com/questions/792 ... ning-dummy

1734034296

Anonymous

Я собрал фиктивную модель молнии Pytorch специально для сравнения времени, необходимого для завершения обучения с несколькими графическими процессорами (3 графических процессора, использующих DDP, называемых 3G) и обучения с одним графическим процессором (называемых 1G). Проблема в том, что процесс обучения 1G всегда короче, чем процесс обучения 3G.
[b]Некоторые варианты, которые я пробовал:[/b]
< ol>
[*]Я перешел от меньшего размера партии (16) к большему (256).
[*]Я экспериментировал с добавлением до 8 дополнительных скрытых слоев.
[*]Я экспериментировал с аккумулировать_град_батчи в параметрах трейнера.

К сожалению, ни одна из этих настроек не привела к каким-либо улучшениям. Возможно, моя модель слишком проста для того, чтобы процесс с несколькими графическими процессорами был лучше, но я слишком новичок в обучении с несколькими графическими процессорами, чтобы заявить об этой проблеме, и мои эксперименты не привели к каким-либо улучшениям. Я видел варианты этого вопроса о переполнении стека, но они обычно направлены на устранение ошибок.  В моем случае мне интересно, почему производительность так снижается, особенно при использовании кода молнии pytorch.
[b]Мой вопрос:[/b] Есть ли какие-либо ключевые проблемы с этим фиктивным примером, который приведет к тому, что процесс с одним графическим процессором превзойдет процесс с несколькими графическими процессорами?
[code]import pytorch_lightning as pl
from pytorch_lightning import LightningModule, LightningDataModule
from torch import nn
from torch.utils.data import Dataset, DataLoader
import torch
import time
import wandb
from pytorch_lightning.loggers import WandbLogger
import pynvml

class SimpleDataset(Dataset):
def __init__(self, size):
self.size = size

def __len__(self):
return self.size

def __getitem__(self, idx):
# Generate some random data
x = torch.randn(1, 10)
y = torch.randn(1)
return x, y

class SimpleDataModule(LightningDataModule):
def __init__(self, batch_size, size):
super().__init__()
self.batch_size = batch_size
self.size = size

def setup(self, stage=None):
self.dataset = SimpleDataset(self.size)

def train_dataloader(self):
return DataLoader(self.dataset, batch_size=self.batch_size, shuffle=True)

def val_dataloader(self):
return DataLoader(self.dataset, batch_size=self.batch_size)

class SimpleModel(LightningModule):
def __init__(self):
super().__init__()
self.fc1 = nn.Linear(10, 256)
self.fc2 = nn.Linear(256, 256)
self.fc3 = nn.Linear(256, 256)
self.fc4 = nn.Linear(256, 1)

def forward(self, x):
x = torch.relu(self.fc1(x))
x = torch.relu(self.fc2(x))
x = torch.relu(self.fc3(x))
x = self.fc4(x)
return x

def training_step(self, batch, batch_idx):
x, y = batch
y_pred = self(x)
loss = nn.MSELoss()(y_pred, y)
self.log('train_loss', loss)

# Get individual GPU utilization
pynvml.nvmlInit()
utilization = []
for i in range(pynvml.nvmlDeviceGetCount()):
handle = pynvml.nvmlDeviceGetHandleByIndex(i)
utilization.append(pynvml.nvmlDeviceGetUtilizationRates(handle).gpu)
pynvml.nvmlShutdown()

# Log individual GPU utilization
for i, util in enumerate(utilization):
self.log(f'gpu_{i}_utilization', util)

return loss

def validation_step(self, batch, batch_idx):
x, y = batch
y_pred = self(x)
loss = nn.MSELoss()(y_pred, y)
self.log('val_loss', loss)
return loss

def configure_optimizers(self):
return torch.optim.Adam(self.parameters(), lr=0.01)

data_module = SimpleDataModule(batch_size=256, size=5000)
model = SimpleModel()

start_time = time.time()

wandb_logger = WandbLogger(project='simple_model')

trainer = pl.Trainer(strategy='ddp', devices=3, max_epochs=200, accumulate_grad_batches=3, logger=wandb_logger)

trainer.fit(model, data_module)
if trainer.is_global_zero:
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Training completed in {elapsed_time:.2f} seconds")
[/code]
[b]Некоторые показатели:[/b] я использовал веса и смещения, чтобы отслеживать использование графического процессора, чтобы посмотреть, прольет ли это свет на проблему. Оно показало, что процесс обучения 3G с течением времени использовал спорадическое использование графического процессора, в то время как процесс обучения 1G оставался относительно постоянным. Я подозреваю, что это и есть суть проблемы, но неясно, как это будет исправлено. Скриншот этих результатов приведен ниже.
[img]https://i.sstatic.net/eAu7Qtfv. png[/img]

Есть ли в коде какой-либо явный недостаток, исправление которого позволило бы процессу обучения 3G превзойти процесс обучения 1G? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79276464/multi-gpu-training-slower-than-single-gpu-training-with-pytorch-lightning-dummy[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема с тензорами pytorch и несколькими графическими процессорами при использовании DataParallel

Последнее сообщение Anonymous « 10 июл 2024, 21:27
Добавлено в форуме Python

Anonymous » 10 июл 2024, 21:27 » в форуме Python

У меня есть большой код машинного обучения, который я пишу в течение нескольких месяцев, и я начал процесс распараллеливания данных для работы с несколькими графическими процессорами. Начнем с того, что код отлично работает при использовании одного...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
10 июл 2024, 21:27
Можно ли выполнить несколько экземпляров программы CUDA на машине с несколькими графическими процессорами?

Последнее сообщение Anonymous « 23 ноя 2024, 03:18
Добавлено в форуме C++

Anonymous » 23 ноя 2024, 03:18 » в форуме C++

Справочная информация:

Я написал программу CUDA, которая выполняет обработку последовательности символов. Программа обрабатывает все последовательности символов параллельно, при условии, что все последовательности имеют одинаковую длину. Я...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
23 ноя 2024, 03:18
Проблема с тонкой настройкой ламы с несколькими графическими процессорами. Ошибка выполнения: ожидалось, что все тензоры

Последнее сообщение Anonymous « 28 ноя 2024, 13:55
Добавлено в форуме Python

Anonymous » 28 ноя 2024, 13:55 » в форуме Python

Я работаю над задачей по тонкой настройке ламы. Когда я тренируюсь на одном графическом процессоре, программа работает нормально.
import os
os.environ = 0
os.environ = false
device = torch.device( cuda:0 if torch.cuda.is_available() else cpu )...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 13:55
Компиляция OpenACC с графическими процессорами AMD

Последнее сообщение Гость « 20 сен 2023, 18:22
Добавлено в форуме C++

Гость » 20 сен 2023, 18:22 » в форуме C++

У меня возникли проблемы с его компиляцией с помощью AMD Radeon R7 M360. Я скомпилировал его с многоядерным процессором, как показано ниже, но может кто-нибудь сказать мне, как скомпилировать его с графическим процессором? Я пробовал...

0 Ответы

39 Просмотры

Последнее сообщение Гость
20 сен 2023, 18:22
Ubuntu OpenCL не может найти графический процессор Intel на устройстве с двумя графическими процессорами

Последнее сообщение Anonymous « 04 янв 2025, 12:43
Добавлено в форуме C++

Anonymous » 04 янв 2025, 12:43 » в форуме C++

Я пытаюсь написать приложение opencl C++ на старом ноутбуке с Ubuntu. Он имеет два графических процессора, которые отображаются, когда я запускаю lspci | grep VGA:
00:02.0 VGA compatible controller: Intel Corporation 3rd Gen Core processor Graphics...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 12:43

Вернуться в «Python»