Память продолжает растут в петле обучения Pytorch, даже с ementle_cache ()

Память продолжает растут в петле обучения Pytorch, даже с ementle_cache () ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Память продолжает растут в петле обучения Pytorch, даже с ementle_cache ()

Цитата

Сообщение Anonymous » 25 фев 2025, 11:38

У меня есть сценарий обучения Pytorch, и я получаю ошибку вне памяти после нескольких эпох, даже если я называю Torch.cuda.empty_cache () . Память графического процессора просто продолжает подниматься, и я не могу понять, почему. < /P>
Вот в основном то, что я делаю: < /p>

Код: Выделить всё

import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

class CustomDataset(Dataset):
def __init__(self, data_paths):
self.data_paths = data_paths

def __len__(self):
return len(self.data_paths)

def __getitem__(self, idx):
image = np.load(self.data_paths[idx]['image']).astype(np.float32)
label = np.load(self.data_paths[idx]['label']).astype(np.int64)

image = torch.tensor(image).cuda()
label = torch.tensor(label).cuda()

return image, label

data_paths = [{'image': f'img_{i}.npy', 'label': f'label_{i}.npy'} for i in range(10000)]
dataset = CustomDataset(data_paths)
dataloader = DataLoader(dataset, batch_size=32, num_workers=4, pin_memory=True)

for epoch in range(10):
for batch in dataloader:
images, labels = batch

output = images.mean()
loss = output.sum()
loss.backward()

del images, labels, loss, output
torch.cuda.empty_cache()

Даже после удаления всего и вызова empty_cache () VRAM просто продолжает подниматься, и я не понимаю, почему. Это не происходит на процессоре. Если я запускаю NVIDIA-SMI, использование памяти увеличивается после каждой партии, пока она не вылетит. Вызов del во всем после каждой партии
[*] Настройка num_workers = 0 (не помог)
[*] Использование .detach () Перед перемещением тензоров в GPU
[*] Проверьте, если проблема находится в моей модели, но даже без модели, просто загрузка данных уже делает увеличение памяти

Кто -нибудь видел это раньше? Есть ли что -то в DataLoader и Cuda () , что может вызвать это? Я не могу попробовать

Подробнее здесь: https://stackoverflow.com/questions/794 ... mpty-cache

1740472711

Anonymous

 У меня есть сценарий обучения Pytorch, и я получаю ошибку вне памяти после нескольких эпох, даже если я называю Torch.cuda.empty_cache () . Память графического процессора просто продолжает подниматься, и я не могу понять, почему. < /P>
Вот в основном то, что я делаю: < /p>
[code]import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

class CustomDataset(Dataset):
def __init__(self, data_paths):
self.data_paths = data_paths

def __len__(self):
return len(self.data_paths)

def __getitem__(self, idx):
image = np.load(self.data_paths[idx]['image']).astype(np.float32)
label = np.load(self.data_paths[idx]['label']).astype(np.int64)

image = torch.tensor(image).cuda()
label = torch.tensor(label).cuda()

return image, label

data_paths = [{'image': f'img_{i}.npy', 'label': f'label_{i}.npy'} for i in range(10000)]
dataset = CustomDataset(data_paths)
dataloader = DataLoader(dataset, batch_size=32, num_workers=4, pin_memory=True)

for epoch in range(10):
for batch in dataloader:
images, labels = batch

output = images.mean()
loss = output.sum()
loss.backward()

del images, labels, loss, output
torch.cuda.empty_cache()
[/code]
Даже после удаления всего и вызова empty_cache ()  VRAM просто продолжает подниматься, и я не понимаю, почему. Это не происходит на процессоре. Если я запускаю NVIDIA-SMI, использование памяти увеличивается после каждой партии, пока она не вылетит. Вызов del  во всем после каждой партии 
[*] Настройка num_workers = 0  (не помог)
[*] Использование .detach ()  Перед перемещением тензоров в GPU
[*] Проверьте, если проблема находится в моей модели, но даже без модели, просто загрузка данных уже делает увеличение памяти

Кто -нибудь видел это раньше? Есть ли что -то в DataLoader и Cuda () , что может вызвать это? Я не могу попробовать  

Подробнее здесь: [url]https://stackoverflow.com/questions/79464907/memory-keeps-increasing-in-pytorch-training-loop-even-with-empty-cache[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Память продолжает растут в петле обучения Pytorch, даже с ementle_cache ()

Последнее сообщение Anonymous « 25 фев 2025, 13:04
Добавлено в форуме Python

Anonymous » 25 фев 2025, 13:04 » в форуме Python

У меня есть сценарий обучения Pytorch, и я получаю ошибку вне памяти после нескольких эпох, даже если я называю Torch.cuda.empty_cache () . Память графического процессора просто продолжает подниматься, и я не могу понять, почему.
Вот в основном то,...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
25 фев 2025, 13:04
Вызвано: java.lang.NullPointerException: невозможно вызвать «javax.cache.Cache.get(Object)», поскольку «this.cache» имее

Последнее сообщение Anonymous « 04 ноя 2024, 15:43
Добавлено в форуме JAVA

Anonymous » 04 ноя 2024, 15:43 » в форуме JAVA

Использование hazelcast для ограничения скорости весенних облаков. Возникла проблема здесь.
Дополнительная информация:

Подробнее здесь:

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 15:43
Spring Boot (Java 17) на Tomcat: память продолжает растут при горячих развертываниях (время jvm over 155 дней, куча нака

Последнее сообщение Anonymous « 20 авг 2025, 08:26
Добавлено в форуме JAVA

Anonymous » 20 авг 2025, 08:26 » в форуме JAVA

У меня есть проект Spring Boot (Java 17) , развернутый на нескольких серверах ( dev, stage, demo, prod ). У каждого сервера есть собственный экземпляр EC2 .
В настоящее время мы делаем горячие развертывания с помощью jenkins builds (это означает,...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 08:26
Память монотонно растут в работе Spark

Последнее сообщение Anonymous « 14 мар 2025, 20:24
Добавлено в форуме JAVA

Anonymous » 14 мар 2025, 20:24 » в форуме JAVA

Мне нужна помощь с проблемой памяти искры. У меня есть приложение Spark, работающее внутри одного JVM в качестве капсула Kubernetes. Характер работы заключается в том, что это пакетная работа, она работает в течение 4-5 часов, а затем стручок...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
14 мар 2025, 20:24
Память монотонно растут в работе Spark

Последнее сообщение Anonymous « 15 мар 2025, 00:23
Добавлено в форуме JAVA

Anonymous » 15 мар 2025, 00:23 » в форуме JAVA

Мне нужна помощь с проблемой памяти искры. У меня есть приложение Spark, работающее внутри одного JVM в качестве капсула Kubernetes. Характер работы заключается в том, что это пакетная работа, она работает в течение 4-5 часов, а затем стручок...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 00:23

Вернуться в «Python»