Почему память моего графического процессора продолжает увеличиваться, когда я просматриваю параметры модели? - Цифровое Кемерово

Почему память моего графического процессора продолжает увеличиваться, когда я просматриваю параметры модели? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему память моего графического процессора продолжает увеличиваться, когда я просматриваю параметры модели?

Цитата

Сообщение Anonymous » 16 дек 2024, 12:53

Я пытаюсь оценить частоту ошибок классификации моделей с различными показателями отсева для конкретной архитектуры. При этом использование памяти увеличивается, и я не могу остановить это (подробности см. в коде ниже):

Код: Выделить всё

N=2048 split 0 memory usage
{'current': 170630912, 'peak': 315827456}
{'current': 345847552, 'peak': 430210560}
{'current': 530811136, 'peak': 610477568}
...
{'current': 1795582208, 'peak': 1873805056}
N=2048 split 1 memory usage
{'current': 1978317568, 'peak': 2056609280}
{'current': 2157136640, 'peak': 2235356160}
...
2024-12-15 18:55:04.141690: W external/local_xla/xla/tsl/framework/bfc_allocator.cc:497] Allocator (GPU_0_bfc) ran out of memory trying to allocate 52.00MiB (rounded to 54531328)requested by op
...
2024-12-15 18:55:04.144298: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 54531208 bytes.
...

Это соответствующая часть кода, который я запускаю, включая несколько неудачных попыток очистки памяти после каждой итерации.

Код: Выделить всё

import tensorflow as tf
import tensorflow_datasets as tfds
import gc

batch_size = 128
sizes = [2048 + n * batch_size * 5 for n in range(10)]
dropout_points = 10

vals_ds = tfds.load(
'mnist',
split=[f'train[{k}%:{k+10}%]' for k in range(0, 100, 10)],
as_supervised=True,
)
trains_ds = tfds.load(
'mnist',
split=[f'train[:{k}%]+train[{k+10}%:]' for k in range(0, 100, 10)],
as_supervised=True,
)
_, ds_info = tfds.load('mnist', with_info=True)

def normalize_img(image, label):
return tf.cast(image, tf.float32) / 255., label

for N in sizes:
for i, (ds_train, ds_test) in enumerate(zip(trains_ds, vals_ds)):
ds_train = ds_train.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_train = ds_train.shuffle(ds_info.splits['train'].num_examples)
ds_train = ds_train.batch(128)

ds_test = ds_test.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_test = ds_test.batch(128)

print(f"N={N} split {i} memory usage")
with open(f"out_{N}_{i}.csv", "w") as f:
f.write(("retention_rate,"
"train_loss,"
"train_err,"
"test_loss,"
"test_err,"
"epochs\n"))
for p in range(dropout_points):
dropout_rate = p / dropout_points

layers = [tf.keras.layers.Flatten(input_shape=(28, 28))]
for i in range(4):
layers.append(tf.keras.layers.Dense(N, activation='relu'))
layers.append(tf.keras.layers.Dropout(dropout_rate))
layers.append(tf.keras.layers.Dense(10))

with tf.device('/GPU:0'):
model = tf.keras.models.Sequential(layers)
model.compile(
optimizer=tf.keras.optimizers.Adam(0.001),
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
metrics=[tf.keras.metrics.SparseCategoricalAccuracy()],
)

callback = tf.keras.callbacks.EarlyStopping(monitor='loss', patience=3)
history = model.fit(
ds_train,
epochs=100,
validation_data=ds_test,
verbose=0,
callbacks=[callback]
)

train_loss, train_acc = model.evaluate(ds_train, verbose=0)
test_loss, test_acc = model.evaluate(ds_test, verbose=0)
epochs = len(history.history['loss'])
f.write((
f"{1 - dropout_rate},"
f"{train_loss},"
f"{1 - train_acc},"
f"{test_loss},"
f"{1 - test_acc},"
f"{epochs}\n"))
del model
tf.keras.backend.clear_session()
gc.collect()
print(tf.config.experimental.get_memory_info('GPU:0'))

Как я могу эффективно выполнить этот цикл без увеличения использования памяти?

Подробнее здесь: https://stackoverflow.com/questions/792 ... parameters

Реклама

1734342834

Anonymous

Я пытаюсь оценить частоту ошибок классификации моделей с различными показателями отсева для конкретной архитектуры. При этом использование памяти увеличивается, и я не могу остановить это (подробности см. в коде ниже):
[code]N=2048 split 0 memory usage
{'current': 170630912, 'peak': 315827456}
{'current': 345847552, 'peak': 430210560}
{'current': 530811136, 'peak': 610477568}
...
{'current': 1795582208, 'peak': 1873805056}
N=2048 split 1 memory usage
{'current': 1978317568, 'peak': 2056609280}
{'current': 2157136640, 'peak': 2235356160}
...
2024-12-15 18:55:04.141690: W external/local_xla/xla/tsl/framework/bfc_allocator.cc:497] Allocator (GPU_0_bfc) ran out of memory trying to allocate 52.00MiB (rounded to 54531328)requested by op
...
2024-12-15 18:55:04.144298: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 54531208 bytes.
...
[/code]
Это соответствующая часть кода, который я запускаю, включая несколько неудачных попыток очистки памяти после каждой итерации.
[code]import tensorflow as tf
import tensorflow_datasets as tfds
import gc

batch_size = 128
sizes = [2048 + n * batch_size * 5 for n in range(10)]
dropout_points = 10

vals_ds = tfds.load(
'mnist',
split=[f'train[{k}%:{k+10}%]' for k in range(0, 100, 10)],
as_supervised=True,
)
trains_ds = tfds.load(
'mnist',
split=[f'train[:{k}%]+train[{k+10}%:]' for k in range(0, 100, 10)],
as_supervised=True,
)
_, ds_info = tfds.load('mnist', with_info=True)

def normalize_img(image, label):
return tf.cast(image, tf.float32) / 255., label

for N in sizes:
for i, (ds_train, ds_test) in enumerate(zip(trains_ds, vals_ds)):
ds_train = ds_train.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_train = ds_train.shuffle(ds_info.splits['train'].num_examples)
ds_train = ds_train.batch(128)

ds_test = ds_test.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_test = ds_test.batch(128)

print(f"N={N} split {i} memory usage")
with open(f"out_{N}_{i}.csv", "w") as f:
f.write(("retention_rate,"
"train_loss,"
"train_err,"
"test_loss,"
"test_err,"
"epochs\n"))
for p in range(dropout_points):
dropout_rate = p / dropout_points

layers = [tf.keras.layers.Flatten(input_shape=(28, 28))]
for i in range(4):
layers.append(tf.keras.layers.Dense(N, activation='relu'))
layers.append(tf.keras.layers.Dropout(dropout_rate))
layers.append(tf.keras.layers.Dense(10))

with tf.device('/GPU:0'):
model = tf.keras.models.Sequential(layers)
model.compile(
optimizer=tf.keras.optimizers.Adam(0.001),
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
metrics=[tf.keras.metrics.SparseCategoricalAccuracy()],
)

callback = tf.keras.callbacks.EarlyStopping(monitor='loss', patience=3)
history = model.fit(
ds_train,
epochs=100,
validation_data=ds_test,
verbose=0,
callbacks=[callback]
)

train_loss, train_acc = model.evaluate(ds_train, verbose=0)
test_loss, test_acc = model.evaluate(ds_test, verbose=0)
epochs = len(history.history['loss'])
f.write((
f"{1 - dropout_rate},"
f"{train_loss},"
f"{1 - train_acc},"
f"{test_loss},"
f"{1 - test_acc},"
f"{epochs}\n"))
del model
tf.keras.backend.clear_session()
gc.collect()
print(tf.config.experimental.get_memory_info('GPU:0'))
[/code]
Как я могу эффективно выполнить этот цикл без увеличения использования памяти? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79283083/why-does-my-gpu-memory-keep-increasing-when-i-sweep-over-model-parameters[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему память моего графического процессора продолжает увеличиваться, когда я просматриваю параметры модели?

Последнее сообщение Anonymous « 15 дек 2024, 22:58
Добавлено в форуме Python

Anonymous » 15 дек 2024, 22:58 » в форуме Python

Я пытаюсь оценить частоту ошибок классификации моделей с различными показателями отсева для конкретной архитектуры. При этом использование памяти увеличивается, и я не могу остановить это (подробности см. в коде ниже):
N=2048 split 0 memory usage...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
15 дек 2024, 22:58
Память графического процессора Pytorch продолжает увеличиваться с каждой партией

Последнее сообщение Anonymous « 01 ноя 2024, 17:18
Добавлено в форуме Python

Anonymous » 01 ноя 2024, 17:18 » в форуме Python

Я обучаю модель CNN на изображениях. Изначально я тренировался на патчах изображений размером (256, 256) и всё было нормально. Затем я изменил свой загрузчик данных, чтобы загружать изображения в формате Full HD (1080, 1920), и после некоторой...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
01 ноя 2024, 17:18
У графического процессора закончилась память. Как вызвать сборщик мусора для очистки памяти графического процессора при

Последнее сообщение Гость « 21 сен 2023, 22:54
Добавлено в форуме Python

Гость » 21 сен 2023, 22:54 » в форуме Python

Я обучаю свою модель на удаленном сервере, используя API GridSearchCV для настройки некоторых гиперпараметров, таких как epochs, l_rate, пакетный_размер и терпение. К сожалению, при их настройке после нескольких итераций я получаю следующую ошибку:...

0 Ответы

173 Просмотры

Последнее сообщение Гость
21 сен 2023, 22:54
Как узнать загрузку графического процессора в процентах и температуру графического процессора на видеокартах AMD

Последнее сообщение Гость « 20 сен 2023, 16:48
Добавлено в форуме C++

Гость » 20 сен 2023, 16:48 » в форуме C++

Кто-нибудь знает, как получить загрузку графического процессора (в процентах) и температуру графического процессора на видеокартах Radeon, используя API из какого-либо AMD SDK? Похоже, что в AGS SDK нет необходимого API. Например, у NVIDIA есть...

0 Ответы

233 Просмотры

Последнее сообщение Гость
20 сен 2023, 16:48
Память рабочего процесса IIS продолжает увеличиваться с каждым новым отчетом Devexpress.

Последнее сообщение Гость « 14 мар 2024, 11:08
Добавлено в форуме C#

Гость » 14 мар 2024, 11:08 » в форуме C#

protected void Page_Load(object sender, EventArgs e)
{

XtraReport report = new XtraReport();
report.LoadLayout(reportsDirectory + \\ + Request.Params );
//For backward compatibility
SqlDataSource.DisableCustomQueryValidation = true;...

0 Ответы

14 Просмотры

Последнее сообщение Гость
14 мар 2024, 11:08

Вернуться в «Python»

Programmiererforum