CudaMalloc не выделяет общую память графического процессора на микроархитектурах Ampere, в отличие от Turing

CudaMalloc не выделяет общую память графического процессора на микроархитектурах Ampere, в отличие от Turing ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

CudaMalloc не выделяет общую память графического процессора на микроархитектурах Ampere, в отличие от Turing

Цитата

Сообщение Anonymous » 19 окт 2023, 15:43

Я использую CUDA Toolkit 11.8 — операционная система — Windows.
Программа скомпилирована под Windows с помощью Nvidia T1200.
Я использую CMAKE 3.15.7 с флагом:

CMAKE_CUDA_ARCH_BIN: 3,5 5,0 5,2 5,3 6,0 6,1 6,2 7,0 7,2 7,5 8,0 8,6 8,7 8,9 9,0 ПРОБЛЕМА Когда я запускаю код на своем ноутбуке (T1200), я вижу, что CudaMalloc сначала выделяет память на выделенной памяти графического процессора, а когда там больше нет свободного места , он автоматически распределяет данные в общую память графического процессора.

Когда тот же код запускается на RTX 3070, CudaMalloc сначала выделяет память в выделенной памяти графического процессора, но когда она заполнена, он больше не выделяет данные в общую память Память графического процессора, но сообщает cudaErrorMemoryAllocation

И я не понимаю, почему поведение на отдельных GPU разное.

Я собираю программу на ноутбуке, затем копирую исполняемый файл на машину с RTX 3070 и выполняю программу там.
КОД
Пример рабочего теста Google

класс CudaTestMemory { публика: беззнаковый символ *m_cudaBuffer; }; TEST_F(Cuda, cudaAllocator) { CudaTestMemory *m_costBuffer[50]; для (int я = 0; я m_cudaBuffer, selectedMemory); если (cudaStatus != cudaSuccess) { // не удалось — невозможно выделить XXXX памяти графического процессора m_costBuffer->m_cudaBuffer = nullptr; throw std::runtime_error(cudaGetErrorString(cudaStatus)); } } } Результат на NVIDIA T1200 NVIDIA T1200 имеет 4 ГБ выделенной памяти графического процессора + 32 ГБ общей памяти графического процессора. Тест завершается сбоем на итерации номер 34, когда на графическом процессоре больше нет свободного места (устройство + общий доступ)
Результат на NVIDIA RTX 3070
NVIDIA RTX 3070 имеет 8 ГБ выделенной памяти + 128 ГБ общей памяти графического процессора. Тест завершается сбоем на итерации номер 7, когда на графическом процессоре больше нет памяти (только устройство).

1697719427

Anonymous


Я использую CUDA Toolkit 11.8 — операционная система — Windows.
Программа скомпилирована под Windows с помощью Nvidia T1200.
Я использую CMAKE 3.15.7 с флагом:
 
CMAKE_CUDA_ARCH_BIN: 3,5 5,0 5,2 5,3 6,0 6,1 6,2 7,0 7,2 7,5 8,0 8,6 8,7 8,9 9,0  ПРОБЛЕМА Когда я запускаю код на своем ноутбуке (T1200), я вижу, что CudaMalloc сначала выделяет память на [b]выделенной памяти графического процессора[/b], а когда там больше нет свободного места , он автоматически распределяет данные в [b]общую память графического процессора[/b].
 
Когда тот же код запускается на RTX 3070, CudaMalloc сначала выделяет память в [b]выделенной памяти графического процессора[/b], но когда она заполнена, он больше не выделяет данные в [b]общую память Память графического процессора[/b], но сообщает cudaErrorMemoryAllocation
 
И я не понимаю, почему поведение на отдельных GPU разное.
 
Я собираю программу на ноутбуке, затем копирую исполняемый файл на машину с RTX 3070 и выполняю программу там.
 КОД 
Пример рабочего теста Google
 
класс CudaTestMemory { публика:     беззнаковый символ *m_cudaBuffer; }; TEST_F(Cuda, cudaAllocator) {     CudaTestMemory *m_costBuffer[50];     для (int я = 0; я m_cudaBuffer, selectedMemory);         если (cudaStatus != cudaSuccess)         {             // не удалось — невозможно выделить XXXX памяти графического процессора             m_costBuffer[i]->m_cudaBuffer = nullptr;             throw std::runtime_error(cudaGetErrorString(cudaStatus));         }     } }  Результат на NVIDIA T1200 NVIDIA T1200 имеет 4 ГБ выделенной памяти графического процессора + 32 ГБ общей памяти графического процессора. Тест завершается сбоем на итерации номер 34, когда на графическом процессоре больше нет свободного места (устройство + общий доступ)
 Результат на NVIDIA RTX 3070 
NVIDIA RTX 3070 имеет 8 ГБ выделенной памяти + 128 ГБ общей памяти графического процессора. Тест завершается сбоем на итерации номер 7, когда на графическом процессоре больше нет памяти (только устройство).

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

У графического процессора закончилась память. Как вызвать сборщик мусора для очистки памяти графического процессора при

Последнее сообщение Гость « 21 сен 2023, 22:54
Добавлено в форуме Python

Гость » 21 сен 2023, 22:54 » в форуме Python

Я обучаю свою модель на удаленном сервере, используя API GridSearchCV для настройки некоторых гиперпараметров, таких как epochs, l_rate, пакетный_размер и терпение. К сожалению, при их настройке после нескольких итераций я получаю следующую ошибку:...

0 Ответы

169 Просмотры

Последнее сообщение Гость
21 сен 2023, 22:54
Torch выделяет нулевую память графического процессора на PyTorch

Последнее сообщение Гость « 14 мар 2024, 11:45
Добавлено в форуме Python

Гость » 14 мар 2024, 11:45 » в форуме Python

Я пытаюсь использовать графический процессор для обучения моей модели, но кажется, что Torch не может выделить память графического процессора.

Моя модель — это RNN, построенная на PyTorch
>

device = torch.device('cuda: 0' if...

0 Ответы

61 Просмотры

Последнее сообщение Гость
14 мар 2024, 11:45
Как узнать загрузку графического процессора в процентах и температуру графического процессора на видеокартах AMD

Последнее сообщение Гость « 20 сен 2023, 16:48
Добавлено в форуме C++

Гость » 20 сен 2023, 16:48 » в форуме C++

Кто-нибудь знает, как получить загрузку графического процессора (в процентах) и температуру графического процессора на видеокартах Radeon, используя API из какого-либо AMD SDK? Похоже, что в AGS SDK нет необходимого API. Например, у NVIDIA есть...

0 Ответы

224 Просмотры

Последнее сообщение Гость
20 сен 2023, 16:48
Tensorflow потребляет память как графического процессора, так и процессора.

Последнее сообщение Anonymous « 27 июл 2024, 18:57
Добавлено в форуме Python

Anonymous » 27 июл 2024, 18:57 » в форуме Python

У меня настроен TensorFlow с включенным графическим процессором в Debian. При использовании tensorflow.keras.models.load_model для загрузки модели я заметил, что она использует как память графического процессора, так и память процессора (оперативную...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
27 июл 2024, 18:57
Как одно общее загруженное ядро процессора может повлиять на общую загрузку процессора openmp?

Последнее сообщение Anonymous « 01 авг 2024, 06:57
Добавлено в форуме Linux

Anonymous » 01 авг 2024, 06:57 » в форуме Linux

Моя система: система Linux, 12 ядер, изолированные ядра 2–11. Использование ядер 0 и 1 какой-то другой программой почти на 100%. Все остальные ядра простаивают.
первый раунд теста.
export GOMP_CPU_AFFINITY=2,3,4
export PARALLEL_ENSEMBLE_THREADS=3...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
01 авг 2024, 06:57

Вернуться в «C++»