Пики памяти графического процессора Conv1d во время обратной опоры. на меньших входах

Пики памяти графического процессора Conv1d во время обратной опоры. на меньших входах ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Пики памяти графического процессора Conv1d во время обратной опоры. на меньших входах

Цитата

Сообщение Гость » 21 сен 2023, 23:57

(Краткий воспроизводимый код ниже.)

Очень странное поведение при использовании torch.Conv1d: при подаче меньшего входного сигнала (ниже некоторого порога) использование памяти графического процессора резко возрастает в обратном направлении — на порядок или больше.

Мы предполагаем, что это связано с тем, что torch/cuda использует разные алгоритмы свертки в зависимости от размеров и доступной памяти; проблема в том, что это приводит к очень нежелательным ошибкам OOM во время выполнения.

импортировать факел из импорта фонарика nn %load_ext pytorch_memlab base_ch = 512 d_pos = 64 защита print_gpu_mem_usage(prefix=""): print(f"{prefix}Пиковая память: {torch.cuda.max_memory_allocated() / 1024 ** 3:.2f} ГБ" f" | {torch.cuda.max_memory_reserved() / 1024 ** 3:.2f} ГБ" f" (Текущий: {torch.cuda.memory_allocated() / 1024 ** 3:.2f} ГБ" f" | {torch.cuda.memory_reserved() / 1024 ** 3:.2f} ГБ)") защита изолированный_конв (в): samp_conv = nn.Conv1d(base_ch + d_pos, 2 * base_ch, kernel_size=1, дополнение='valid').cuda() мн = samp_conv(v).mean() мин.назад() %mlrun -f изолированный_конв изолированный_конв(torch.rand(5000, base_ch+d_pos, 11).cuda())
:active_bytes: :reserved_bytes: :line: :код: все все ----пик---- -----пик----- ---- ---- 108,00 млн 108,00 6 def изолированный_конв(v): 328,00 млн 346,00 млн 7 mn = nn.Conv1d(.....) 542,00 млн 562,00 млн 8 mn.backward()
однако, если переключить n выборок с 5000 на 4000, ситуация взорвется:

%mlrun -f изолированный_конв изолированный_конв(torch.rand(4000, base_ch+d_pos, 11).cuda())
:active_bytes: :reserved_bytes: :line: :код: все все ----пик---- -----пик----- ---- ---- 86,00 млн 86.00 6 def изолированный_конв(v): 260,00 млн 280,00 млн 7 mn = nn.Conv1d(.....) 8.07G 8,25 ГБ 8 mn.backward()
То же самое произойдет, если я проверю их в противоположном порядке.

Это работает в Docker, поэтому, если вы не можете воспроизвести его в следующих версиях, я могу поделиться Dockerfile.

факел == 2.0.1 pytorch-memlab == 0.3.0 Нвидиа 2080Ти Версия драйвера: 525.105.17
Версия CUDA: 12.0

1695329825

Гость


(Краткий воспроизводимый код ниже.)
 
[b]Очень[/b] странное поведение при использовании torch.Conv1d: при подаче меньшего входного сигнала (ниже некоторого порога) использование памяти графического процессора резко возрастает в обратном направлении — на порядок или больше.
 
Мы предполагаем, что это связано с тем, что torch/cuda использует разные алгоритмы свертки в зависимости от размеров и доступной памяти; проблема в том, что это приводит к очень нежелательным ошибкам OOM во время выполнения.
 
импортировать факел из импорта фонарика nn %load_ext pytorch_memlab base_ch = 512 d_pos = 64 защита print_gpu_mem_usage(prefix=""):     print(f"{prefix}Пиковая память: {torch.cuda.max_memory_allocated() / 1024 ** 3:.2f} ГБ"           f" | {torch.cuda.max_memory_reserved() / 1024 ** 3:.2f} ГБ"           f" (Текущий: {torch.cuda.memory_allocated() / 1024 ** 3:.2f} ГБ"           f" | {torch.cuda.memory_reserved() / 1024 ** 3:.2f} ГБ)") защита изолированный_конв (в):     samp_conv = nn.Conv1d(base_ch + d_pos, 2 * base_ch, kernel_size=1, дополнение='valid').cuda()     мн = samp_conv(v).mean()     мин.назад()  %mlrun -f изолированный_конв изолированный_конв(torch.rand(5000, base_ch+d_pos, 11).cuda())
     :active_bytes: :reserved_bytes: :line: :код:     все все     ----пик---- -----пик----- ---- ----   108,00 млн 108,00 6 def изолированный_конв(v):   328,00 млн 346,00 млн 7 mn = nn.Conv1d(.....)   542,00 млн 562,00 млн 8 mn.backward()     
однако, если переключить n выборок с 5000 на 4000, ситуация взорвется:
 
%mlrun -f изолированный_конв изолированный_конв(torch.rand(4000, base_ch+d_pos, 11).cuda())
     :active_bytes: :reserved_bytes: :line: :код:     все все     ----пик---- -----пик----- ---- ----   86,00 млн 86.00 6 def изолированный_конв(v):   260,00 млн 280,00 млн 7 mn = nn.Conv1d(.....)   8.07G 8,25 ГБ 8 mn.backward()     
То же самое произойдет, если я проверю их в противоположном порядке.
 
Это работает в Docker, поэтому, если вы не можете воспроизвести его в следующих версиях, я могу поделиться Dockerfile.
 
факел == 2.0.1 pytorch-memlab == 0.3.0 Нвидиа 2080Ти Версия драйвера: 525.105.17
Версия CUDA: 12.0

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

У графического процессора закончилась память. Как вызвать сборщик мусора для очистки памяти графического процессора при

Последнее сообщение Гость « 21 сен 2023, 22:54
Добавлено в форуме Python

Гость » 21 сен 2023, 22:54 » в форуме Python

Я обучаю свою модель на удаленном сервере, используя API GridSearchCV для настройки некоторых гиперпараметров, таких как epochs, l_rate, пакетный_размер и терпение. К сожалению, при их настройке после нескольких итераций я получаю следующую ошибку:...

0 Ответы

169 Просмотры

Последнее сообщение Гость
21 сен 2023, 22:54
Как узнать загрузку графического процессора в процентах и температуру графического процессора на видеокартах AMD

Последнее сообщение Гость « 20 сен 2023, 16:48
Добавлено в форуме C++

Гость » 20 сен 2023, 16:48 » в форуме C++

Кто-нибудь знает, как получить загрузку графического процессора (в процентах) и температуру графического процессора на видеокартах Radeon, используя API из какого-либо AMD SDK? Похоже, что в AGS SDK нет необходимого API. Например, у NVIDIA есть...

0 Ответы

224 Просмотры

Последнее сообщение Гость
20 сен 2023, 16:48
CSS-анимация перехода потребляет много ресурсов процессора/графического процессора

Последнее сообщение Гость « 30 сен 2023, 22:03
Добавлено в форуме CSS

Гость » 30 сен 2023, 22:03 » в форуме CSS

Я реализую небольшой эффект на своем веб-сайте. Случайное изменение размера одного из элементов гибели.

#the-div { ширина: 100 пикселей; переход: 0,3 с, все с легкостью; } const theDiv = document.getElementById( the-div ); функция анимации(){...

0 Ответы

132 Просмотры

Последнее сообщение Гость
30 сен 2023, 22:03
Код, запускаемый на версии процессора tensorflow, не будет работать на версии графического процессора tensorflow, пробуя

Последнее сообщение Anonymous « 02 янв 2024, 16:53
Добавлено в форуме Python

Anonymous » 02 янв 2024, 16:53 » в форуме Python

Сейчас я работаю над выпускным экзаменом CQF по глубокому обучению.

Я построил модель cnn-bilstm-attention ранее по ходу курса. Когда я добавлял в модель все больше и больше функций, процесс обучения становился все медленнее и медленнее. 4 функции...

0 Ответы

149 Просмотры

Последнее сообщение Anonymous
02 янв 2024, 16:53
Есть ли какой-нибудь метод, позволяющий параллельно выполнять функцию процессора с ядром графического процессора?

Последнее сообщение Anonymous « 29 июн 2024, 06:46
Добавлено в форуме C++

Anonymous » 29 июн 2024, 06:46 » в форуме C++

Я хочу вычислить формулу: B=A^-1 + XY.
A,X,Y — это матрица размерностью 1024.
Как мы все знаем, обращение матрицы занимает много времени. и умножение матриц занимает меньше времени.
Поэтому я хочу параллельно вычислить инверсию matirx в графическом...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 06:46

Вернуться в «Python»