Я только что установил новые версии Cupy и Cuda, и
Я заметил, что время выполнения
для некоторого кода, который я использовал для резкого увеличения.
Время выполнения на графическом процессоре намного длиннее, чем что на процессоре.
У вас есть какие -либо советы, что я могу сделать, чтобы обратить вспять эту ситуацию?
Вот пример: < /p>
import cupy as cp
from cupyx.profiler import benchmark
xi_tr = cp.random.random( size = (20,5) , dtype = 'float32')
xi_te = cp.random.random( size = (20,5) , dtype = 'float32')
n_tr_samples = xi_te.shape[0]
def test_func( tr , te , n_samples):
inputs_3d = cp.tile( te , (n_samples , 1 , 1))
tr_3d = tr[: , cp.newaxis , :]
cl_dif = (tr_3d - inputs_3d)
tot_d = (cl_dif * cl_dif).sum(axis=2)
return tot_d
result = benchmark( test_func , args = ( xi_tr , xi_te , n_tr_samples ) , n_repeat = 10)
print( result )
< /code>
test_func:
CPU: 139.340 US +/- 24.145 (мин: 127,600 /макс: 210,800) US
GPU-0 : 260.102 США +/- 49,430 (мин: 238,592 /макс: 407,552) США < /p>
cp.cuda.is_available()
< /code>
out [96]: true < /p>
cp.cuda.runtime.getDeviceCount()
< /code>
out [97]: 1 < /p>
cp.show_config()
< /code>
ОС: Windows-10-10.0.19045-sp0 < /p>
версия Python: 3.12.3 < /p>
Cupy Version: 13.3.0 < /p>
Cupy Platform: nvidia cuda < /p>
numpy версия: 1.26.4 < /p>
Версия Scipy: 1.13.1 < /p>
Версия для сборки цинтона: 0.29.37 < /p>
Версия времени выполнения цинтона: нет < /p>
Корень CUDA: C: \ Program Files \ NVIDIA GPU GPU Computing Toolkit \ CUDA \ V12.8 < /p>
nvcc path: c: \ program files \ nvidia GPU GPU Computing Toolkit \ cuda \ v12.8 \ bin \ nvcc.exe < /p>
Версия Cuda Build Version: 12060 < /p>
версия драйвера Cuda: 12080 < /p>
cuda Версия времени выполнения: 12060 (связанный с Cupy) / RuntimeError («Cupy не удалось загрузить cudart64_12.dll: filenotfounderror: не удалось найти модуль 'cudart64_12.dll' (или одна из его зависимости). Попробуйте использовать полный путь с синтаксисом конструктора». ) (локально установлен) Доступно) < /p>
Версия запончата: 11303 < /p>
Кюнда версия: 10309 < /p>
Cusolver Version: (11, 7 , 2) < /p>
версия Cusparse: (доступно) < /p>
nvrtc версия: (12, 8)
версия тяги: 200600 < /p >
Cub Build Version: 200600 < /p>
jitify build version: < /p>
Cudnn Build Версия: none < /p>
версия Cudnn: none < /p>
nccl build version: none < /p>
nccl runtime версия: none < /p>
< P> версия Cutensor: none < /p>
КУСПАРСЕТ СВОДСТВО ВЕРСИЯ: NONE < /p>
Устройство 0 Имя: nvidia geforce gtx 1080 ti < /p>
Устройство 0 Возможности вычисления: 61
Устройство 0 ID шины PCI: 0000: 02: 00.0
Подробнее здесь: https://stackoverflow.com/questions/794 ... ution-time
Почему время выполнения графических процессоров намного выше, чем время выполнения процессора? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение