В функции numba замените cuda.popc() эквивалентом ЦП, если его нет в CUDA.

В функции numba замените cuda.popc() эквивалентом ЦП, если его нет в CUDA. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

В функции numba замените cuda.popc() эквивалентом ЦП, если его нет в CUDA.

Цитата

Сообщение Anonymous » 08 янв 2025, 06:13

Я пишу общий код, который поддерживает как numba-jitting на CPU, так и numba.cuda-jitting на GPU.
Все работает хорошо, за исключением того, что глубоко внутри общего кода я хотел бы использовать встроенную инструкцию, которая подсчитывает количество бит в целом числе. Это cuda.popc() для пути CUDA и вспомогательная функция cpu_popc() для пути CPU. К сожалению, cuda.popc действителен только в ядре графического процессора с числом.cuda, а cpu_popc действителен только в функции ЦП с числом.
Есть ли есть ли способ реализовать как cpu_compute, так и gpu_compute, если не считать дублирования всего общего кода?
Вот простая структура для проверки этого:
# CPU equivalent ctpop, from https://stackoverflow.com/a/77103233
@numba.extending.intrinsic
def popc_helper(typing_context, src):
def codegen(context, builder, signature, args):
return numba.cpython.mathimpl.call_fp_intrinsic(builder, "llvm.ctpop.i64", args)
return numba.uint64(numba.uint64), codegen

@numba.njit(numba.uint64(numba.uint64))
def cpu_popc(x):
"""Return the (population) count of set bits in an integer."""
return popc_helper(x)

@numba.njit
def common_function(x):
# ...
# some_long_code_that_should_not_get_duplicated.
# ...
# return cpu_popc(x) # This works on the CPU path.
return cuda.popc(x) # This works on the GPU path.

@numba.njit
def cpu_compute(n=5):
array_in = np.arange(n)
array_out = np.empty_like(array_in)
for i, value in enumerate(array_in):
array_out = common_function(value)
return array_out

@cuda.jit
def gpu_kernel(array_in, array_out):
thread_index = cuda.grid(1)
if thread_index < len(array_in):
array_out[thread_index] = common_function(array_in[thread_index])

def gpu_compute(n=5):
array_in = np.arange(n)
array_out = cuda.device_array_like(array_in)
gpu_kernel[1, len(array_in)](cuda.to_device(array_in), array_out)
return array_out.copy_to_host()

# print(cpu_compute())
print(gpu_compute())

Подробнее здесь: https://stackoverflow.com/questions/793 ... ot-in-cuda

1736306006

Anonymous

Я пишу общий код, который поддерживает как numba-jitting на CPU, так и numba.cuda-jitting на GPU.
Все работает хорошо, за исключением того, что глубоко внутри общего кода я хотел бы использовать встроенную инструкцию, которая подсчитывает количество бит в целом числе.  Это cuda.popc() для пути CUDA и вспомогательная функция cpu_popc() для пути CPU.  К сожалению, cuda.popc действителен только в ядре графического процессора с числом.cuda, а cpu_popc действителен только в функции ЦП с числом.
Есть ли есть ли способ реализовать как cpu_compute, так и gpu_compute, если не считать дублирования всего общего кода?
Вот простая структура для проверки этого:
# CPU equivalent ctpop, from https://stackoverflow.com/a/77103233
@numba.extending.intrinsic
def popc_helper(typing_context, src):
def codegen(context, builder, signature, args):
return numba.cpython.mathimpl.call_fp_intrinsic(builder, "llvm.ctpop.i64", args)
return numba.uint64(numba.uint64), codegen

@numba.njit(numba.uint64(numba.uint64))
def cpu_popc(x):
"""Return the (population) count of set bits in an integer."""
return popc_helper(x)

@numba.njit
def common_function(x):
# ...
# some_long_code_that_should_not_get_duplicated.
# ...
# return cpu_popc(x)  # This works on the CPU path.
return cuda.popc(x)  # This works on the GPU path.

@numba.njit
def cpu_compute(n=5):
array_in = np.arange(n)
array_out = np.empty_like(array_in)
for i, value in enumerate(array_in):
array_out[i] = common_function(value)
return array_out

@cuda.jit
def gpu_kernel(array_in, array_out):
thread_index = cuda.grid(1)
if thread_index < len(array_in):
array_out[thread_index] = common_function(array_in[thread_index])

def gpu_compute(n=5):
array_in = np.arange(n)
array_out = cuda.device_array_like(array_in)
gpu_kernel[1, len(array_in)](cuda.to_device(array_in), array_out)
return array_out.copy_to_host()

# print(cpu_compute())
print(gpu_compute())
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79337859/in-a-numba-function-replace-cuda-popc-by-cpu-equivalent-if-not-in-cuda[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как я могу из Jitted-функции Numba вызвать другую Jit-функцию Numba с указателем?

Последнее сообщение Anonymous « 01 окт 2024, 00:07
Добавлено в форуме Python

Anonymous » 01 окт 2024, 00:07 » в форуме Python

У меня есть несколько JJ-функций f_i с одинаковой сигнатурой.
Я хочу динамически вызывать их из другой JJ-функции g.
Я бы хотел:

сохраните указатели на функции f_i в массиве Numpy a
из g:

по индексу i получить указатель на функцию f_i...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 00:07
Как я могу из Jitted-функции Numba вызвать другую Jit-функцию Numba с указателем?

Последнее сообщение Anonymous « 01 окт 2024, 04:07
Добавлено в форуме Python

Anonymous » 01 окт 2024, 04:07 » в форуме Python

У меня есть несколько Jit-функций f_i с одинаковой сигнатурой.
Я хочу динамически вызывать их из другой Jit-функции g.
Я хотел бы:

сохранить указатели на функции f_i в массиве Numpy a
из g:

по индексу i получить из a указатель на функцию f_i...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 04:07
Отчет о ходе выполнения функции CUDA в Python (Numba)

Последнее сообщение Anonymous « 05 май 2024, 21:47
Добавлено в форуме Python

Anonymous » 05 май 2024, 21:47 » в форуме Python

У меня есть давно работающая функция CUDA, и я хотел бы периодически сообщать о ее ходе.
Я пытаюсь использовать закрепленный массив вместе с потоками, как в .com/cuda-by-numba-examples-7652412af1ee
Но даже если графический процессор загружен и...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
05 май 2024, 21:47
RuntimeError: ошибка времени выполнения cuda (35): версия драйвера CUDA недостаточна для версии среды выполнения CUDA в

Последнее сообщение Anonymous « 03 ноя 2024, 19:04
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 19:04 » в форуме Python

Когда я пытаюсь загрузить контрольную точку pytorch:

checkpoint = torch.load(pathname)

Я вижу:

RuntimeError: ошибка выполнения cuda (35): CUDA версия драйвера недостаточна для версии среды выполнения CUDA по адресу...

0 Ответы

82 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 19:04
CUDA ON DEBIAN TRIXIE: версия драйвера CUDA недостаточно для версии времени выполнения CUDA

Последнее сообщение Anonymous « 20 авг 2025, 18:06
Добавлено в форуме Linux

Anonymous » 20 авг 2025, 18:06 » в форуме Linux

У меня есть nvidia-driver-580 и cuda-tools-13 , установленные на Debian Trixie (оба являются самой новой версией, которую я мог найти): $ a p t l i s t - - i n s t a l l e d | a g n v i d i a f i r m w a r e - n v i d i a - g s p / u n k n o w n , n...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 18:06

Вернуться в «Python»