Использование ядра CUDA: большой объем памяти процесса

Использование ядра CUDA: большой объем памяти процесса ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

Использование ядра CUDA: большой объем памяти процесса

Цитата

Сообщение Anonymous » 16 июл 2024, 12:25

Всего у меня 811 изображений с разрешением RGB каждого 1440x1080. Следовательно итого 3,52 ГБ. Я использую CUDA v12.2, графический процессор NVIDIA RTX 3090 и Visual Studio 2019. Я столкнулся с двумя проблемами

После readImage() , память процесса показывает 12,5 ГБ. Почему изображения размером 3,52 ГБ занимают так много памяти? Как его уменьшить?

Код: Выделить всё

//it is a global container
std::vector gpuImgStack;

void readImage(std::string img_path)
{
cv::Mat original_img;
cv::cuda::GpuMat gpuTempImg;

for (int i = 0; i < IMG_SIZE; i++)
{
original_img = cv::imread(img_path + "a1_" + std::to_string(i + 1) + ".BMP");
gpuTempImg.upload(original_img);

gpuImgStack.push_back(gpuTempImg);

gpuTempImg.release();
original_img.release();

if (gpuImgStack.back().empty())
{
printf("Image read failed\n");
exit(-1);
}
}

std::cout = imgWidth - 3)
return;

double sumX = 0.0, sumY = 0.0, color=0.0;
for (int i = -1; i  (gpuImgStack[i].ptr(), ML3[i].ptr(), width, height);
}
cudaDeviceSynchronize();
}

Я пытался оптимизировать ядро, и сейчас это мое ядро.
Кроме того, я пытался не использовать эти два контейнера, но это невозможно сделать так, как внутри ядра исходное и конечное изображения будут неправильными.

Код: Выделить всё

cv::cuda::GpuMat ML3[IMG_SIZE];
cv::cuda::GpuMat SML3[IMG_SIZE];

Подробнее здесь: https://stackoverflow.com/questions/787 ... ess-memory

1721121942

Anonymous

Всего у меня 811 изображений с разрешением RGB каждого 1440x1080. Следовательно итого 3,52 ГБ. Я использую CUDA v12.2, графический процессор NVIDIA RTX 3090 и Visual Studio 2019. Я столкнулся с двумя проблемами
[list]
[*]После readImage() , память процесса показывает 12,5 ГБ. Почему изображения размером 3,52 ГБ занимают так много памяти? Как его уменьшить?
[code]//it is a global container
std::vector gpuImgStack;

void readImage(std::string img_path)
{
cv::Mat original_img;
cv::cuda::GpuMat gpuTempImg;

for (int i = 0; i < IMG_SIZE; i++)
{
original_img = cv::imread(img_path + "a1_" + std::to_string(i + 1) + ".BMP");
gpuTempImg.upload(original_img);

gpuImgStack.push_back(gpuTempImg);

gpuTempImg.release();
original_img.release();

if (gpuImgStack.back().empty())
{
printf("Image read failed\n");
exit(-1);
}
}

std::cout = imgWidth - 3)
return;

double sumX = 0.0, sumY = 0.0, color=0.0;
for (int i = -1; i  (gpuImgStack[i].ptr(), ML3[i].ptr(), width, height);
}
cudaDeviceSynchronize();
}
[/code]
Я пытался оптимизировать ядро, и сейчас это мое ядро.
Кроме того, я пытался не использовать эти два контейнера, но это невозможно сделать так, как внутри ядра исходное и конечное изображения будут неправильными.
[code]cv::cuda::GpuMat ML3[IMG_SIZE];
cv::cuda::GpuMat SML3[IMG_SIZE];
[/code]

[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/78752817/cuda-kernel-taking-large-amount-of-process-memory[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Получите указатель функции на стороне устройства ядра cuda (без подписи), используя только имя символа ядра, поскольку с

Последнее сообщение Anonymous « 21 сен 2024, 11:17
Добавлено в форуме C++

Anonymous » 21 сен 2024, 11:17 » в форуме C++

Для кода, упомянутого в сообщении, это функция __nv_cudaEntityRegisterCallback, внедренная компилятором nvcc, которая регистрирует имя/символ ядра на стороне хоста ((void (*)(double*, double*, double* , int))vecAdd) с символом _Z6vecAddPdS_S_i на...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 11:17
Получите указатель функции на стороне устройства ядра cuda (без подписи), используя только имя символа ядра, поскольку с

Последнее сообщение Anonymous « 21 сен 2024, 12:37
Добавлено в форуме C++

Anonymous » 21 сен 2024, 12:37 » в форуме C++

Примечание. Если сообщение кажется длинным, можно сразу перейти к разделу, начинающемуся с «Мне было интересно..» в конце, на случай, если вы захотите пропустить сборку/контекст.

Сборка/контекст:
Для кода, упомянутого в сообщении, это — это...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 12:37
Получите указатель функции на стороне устройства ядра cuda (без подписи), используя только имя символа ядра, поскольку с

Последнее сообщение Anonymous « 22 сен 2024, 20:19
Добавлено в форуме C++

Anonymous » 22 сен 2024, 20:19 » в форуме C++

Примечание. Если сообщение кажется длинным, можно сразу перейти к разделу, начинающемуся с «Мне было интересно..» в конце, на случай, если вы захотите пропустить сборку/контекст.

Сборка/контекст:
Для кода, упомянутого в сообщении, это — это...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 20:19
«RuntimeError: ошибка CUDA: срабатывание утверждения на стороне устройства. Ошибки ядра CUDA могут асинхронно сообщаться

Последнее сообщение Anonymous « 18 сен 2024, 15:37
Добавлено в форуме Python

Anonymous » 18 сен 2024, 15:37 » в форуме Python

[

](
sstatic.net/H3JmrldO.png
)
Для отладки рассмотрите возможность передачи CUDA_LAUNCH_BLOCKING=1
Скомпилируйте с TORCH_USE_CUDA_DSA, чтобы включить утверждения на стороне устройства.
Я тренирую YOLOv8 определять атрибуты одежды. Изображения...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 15:37
RuntimeError: Ошибка CUDA: изображение ядра не доступно для выполнения на устройстве после модели.cuda ()

Последнее сообщение Anonymous « 28 июл 2025, 00:18
Добавлено в форуме Python

Anonymous » 28 июл 2025, 00:18 » в форуме Python

Я работаю над этой моделью:
class Model(torch.nn.Module):
def __init__(self, sizes, config):
super(Model, self).__init__()

self.lstm = []
for i in range(len(sizes) - 2):
self.lstm.append(LSTM(sizes , sizes , num_layers=8))...

0 Ответы

47 Просмотры

Последнее сообщение Anonymous
28 июл 2025, 00:18

Вернуться в «C++»