Пакетное умножение матриц с помощью JAX на графическом процессоре быстрее с матрицами большего размера

Пакетное умножение матриц с помощью JAX на графическом процессоре быстрее с матрицами большего размера ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Пакетное умножение матриц с помощью JAX на графическом процессоре быстрее с матрицами большего размера

Цитата

Сообщение Anonymous » 14 окт 2024, 13:34

Я пытаюсь выполнить пакетное умножение матриц с помощью JAX на графическом процессоре и заметил, что умножение фигур (1000, 1000, 3, 35) @ (1000, 1000, 35, 1) происходит примерно в 3 раза быстрее, чем на самом деле. умножить (1000, 1000, 3, 25) @ (1000, 1000, 25, 1) на f64 и ~5x на f32.
Что объясняет эту разницу, учитывая, что на процессоре ни JAX, ни NumPy не показывают такого поведения, а на графическом процессоре CuPy не показывает такого поведения.
Я запускаю это с JAX: 0.4.32 на NVIDIA RTX A5000 (и получаю аналогичные результаты на Tesla T4), код для воспроизведения:

Код: Выделить всё

import numpy as np
import cupy as cp
from cupyx.profiler import benchmark
from jax import config
config.update("jax_enable_x64", True)
import jax
import jax.numpy as jnp
import matplotlib.pyplot as plt

rng = np.random.default_rng()

x = np.arange(5, 55, 5)

Тайминги графического процессора:

Код: Выделить всё

dtype = cp.float64
timings_cp = []
for i in range(5, 55, 5):
a = cp.array(rng.random((1000, 1000, 3, i)), dtype=dtype)
b = cp.array(rng.random((1000, 1000, i, 1)), dtype=dtype)
timings_cp.append(benchmark(lambda a, b: a@b, (a, b), n_repeat=10, n_warmup=10))

dtype = jnp.float64
timings_jax_gpu = []
with jax.default_device(jax.devices('gpu')[0]):
for i in range(5, 55, 5):
a = jnp.array(rng.random((1000, 1000, 3, i)), dtype=dtype)
b = jnp.array(rng.random((1000, 1000, i, 1)), dtype=dtype)
func = jax.jit(lambda a, b: a@b)
timings_jax_gpu.append(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=10, n_warmup=10))

plt.figure()
plt.plot(x, [i.gpu_times.mean() for i in timings_cp], label="CuPy")
plt.plot(x, [i.gpu_times.mean() for i in timings_jax_gpu], label="JAX GPU")
plt.legend()

Время с этими конкретными фигурами:

Код: Выделить всё

dtype = jnp.float64
with jax.default_device(jax.devices('gpu')[0]):
a = jnp.array(rng.random((1000, 1000, 3, 25)), dtype=dtype)
b = jnp.array(rng.random((1000, 1000, 25, 1)), dtype=dtype)
func = jax.jit(lambda a, b: a@b)
print(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=1000, n_warmup=10).gpu_times.mean())

a = jnp.array(rng.random((1000, 1000, 3, 35)), dtype=dtype)
b = jnp.array(rng.random((1000, 1000, 35, 1)), dtype=dtype)
print(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=1000, n_warmup=10).gpu_times.mean())

Дает

Код: Выделить всё

f64:
0.01453789699935913
0.004859122595310211

f32:

0.005860503035545349
0.001209742688536644

Тайминги процессора:

Код: Выделить всё

timings_np = []
for i in range(5, 55, 5):
a = rng.random((1000, 1000, 3, i))
b = rng.random((1000, 1000, i, 1))
timings_np.append(benchmark(lambda a, b: a@b, (a, b), n_repeat=10, n_warmup=10))

timings_jax_cpu = []
with jax.default_device(jax.devices('cpu')[0]):
for i in range(5, 55, 5):
a = jnp.array(rng.random((1000, 1000, 3, i)))
b = jnp.array(rng.random((1000, 1000, i, 1)))
func = jax.jit(lambda a, b: a@b)
timings_jax_cpu.append(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=10, n_warmup=10))

plt.figure()
plt.plot(x, [i.cpu_times.mean() for i in timings_np], label="NumPy")
plt.plot(x, [i.cpu_times.mean() for i in timings_jax_cpu], label="JAX CPU")
plt.legend()

Подробнее здесь: https://stackoverflow.com/questions/790 ... r-matrices

1728902086

Anonymous

Я пытаюсь выполнить пакетное умножение матриц с помощью JAX на графическом процессоре и заметил, что умножение фигур (1000, 1000, 3, 35) @ (1000, 1000, 35, 1) происходит примерно в 3 раза быстрее, чем на самом деле. умножить (1000, 1000, 3, 25) @ (1000, 1000, 25, 1) на f64 и ~5x на f32.
Что объясняет эту разницу, учитывая, что на процессоре ни JAX, ни NumPy не показывают такого поведения, а на графическом процессоре CuPy не показывает такого поведения.
Я запускаю это с JAX: 0.4.32 на NVIDIA RTX A5000 (и получаю аналогичные результаты на Tesla T4), код для воспроизведения:
[code]import numpy as np
import cupy as cp
from cupyx.profiler import benchmark
from jax import config
config.update("jax_enable_x64", True)
import jax
import jax.numpy as jnp
import matplotlib.pyplot as plt

rng = np.random.default_rng()

x = np.arange(5, 55, 5)
[/code]
Тайминги графического процессора:
[code]dtype = cp.float64
timings_cp = []
for i in range(5, 55, 5):
a = cp.array(rng.random((1000, 1000, 3, i)), dtype=dtype)
b = cp.array(rng.random((1000, 1000, i, 1)), dtype=dtype)
timings_cp.append(benchmark(lambda a, b: a@b, (a, b), n_repeat=10, n_warmup=10))

dtype = jnp.float64
timings_jax_gpu = []
with jax.default_device(jax.devices('gpu')[0]):
for i in range(5, 55, 5):
a = jnp.array(rng.random((1000, 1000, 3, i)), dtype=dtype)
b = jnp.array(rng.random((1000, 1000, i, 1)), dtype=dtype)
func = jax.jit(lambda a, b: a@b)
timings_jax_gpu.append(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=10, n_warmup=10))

plt.figure()
plt.plot(x, [i.gpu_times.mean() for i in timings_cp], label="CuPy")
plt.plot(x, [i.gpu_times.mean() for i in timings_jax_gpu], label="JAX GPU")
plt.legend()
[/code]
[img]https://i.sstatic.net/YF88454x.png[/img]

Время с этими конкретными фигурами:
[code]dtype = jnp.float64
with jax.default_device(jax.devices('gpu')[0]):
a = jnp.array(rng.random((1000, 1000, 3, 25)), dtype=dtype)
b = jnp.array(rng.random((1000, 1000, 25, 1)), dtype=dtype)
func = jax.jit(lambda a, b: a@b)
print(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=1000, n_warmup=10).gpu_times.mean())

a = jnp.array(rng.random((1000, 1000, 3, 35)), dtype=dtype)
b = jnp.array(rng.random((1000, 1000, 35, 1)), dtype=dtype)
print(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=1000, n_warmup=10).gpu_times.mean())
[/code]
Дает
[code]f64:
0.01453789699935913
0.004859122595310211

f32:

0.005860503035545349
0.001209742688536644
[/code]
Тайминги процессора:
[code]timings_np = []
for i in range(5, 55, 5):
a = rng.random((1000, 1000, 3, i))
b = rng.random((1000, 1000, i, 1))
timings_np.append(benchmark(lambda a, b: a@b, (a, b), n_repeat=10, n_warmup=10))

timings_jax_cpu = []
with jax.default_device(jax.devices('cpu')[0]):
for i in range(5, 55, 5):
a = jnp.array(rng.random((1000, 1000, 3, i)))
b = jnp.array(rng.random((1000, 1000, i, 1)))
func = jax.jit(lambda a, b: a@b)
timings_jax_cpu.append(benchmark(lambda a, b: func(a, b).block_until_ready(), (a, b), n_repeat=10, n_warmup=10))

plt.figure()
plt.plot(x, [i.cpu_times.mean() for i in timings_np], label="NumPy")
plt.plot(x, [i.cpu_times.mean() for i in timings_jax_cpu], label="JAX CPU")
plt.legend()
[/code]
[img]https://i.sstatic.net/kE2R0kpb.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79085795/batched-matrix-multiplication-with-jax-on-gpu-faster-with-larger-matrices[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Пакетное умножение матриц с помощью JAX на графическом процессоре быстрее с матрицами большего размера

Последнее сообщение Anonymous « 14 окт 2024, 20:43
Добавлено в форуме Python

Anonymous » 14 окт 2024, 20:43 » в форуме Python

Я пытаюсь выполнить пакетное умножение матриц с помощью JAX на графическом процессоре и заметил, что умножение фигур (1000, 1000, 3, 35) @ (1000, 1000, 35, 1) происходит примерно в 3 раза быстрее, чем на самом деле. умножить (1000, 1000, 3, 25) @...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 20:43
Пакетное умножение матриц с помощью JAX на графическом процессоре быстрее с матрицами большего размера

Последнее сообщение Anonymous « 15 окт 2024, 04:41
Добавлено в форуме Python

Anonymous » 15 окт 2024, 04:41 » в форуме Python

Я пытаюсь выполнить пакетное умножение матриц с помощью JAX на графическом процессоре и заметил, что умножение фигур (1000, 1000, 3, 35) @ (1000, 1000, 35, 1) происходит примерно в 3 раза быстрее, чем на самом деле. умножить (1000, 1000, 3, 25) @...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 04:41
Пакетное умножение матриц в numpy

Последнее сообщение Anonymous « 17 янв 2025, 09:11
Добавлено в форуме Python

Anonymous » 17 янв 2025, 09:11 » в форуме Python

У меня есть два массива numpy a и b формы и соответственно. И для a, и для b первая запись в форме — это размер пакета. Когда я выполняю опцию умножения матрицы, я получаю массив формы . MWE заключается в следующем.
import numpy as np

a =...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
17 янв 2025, 09:11
Почему умножение матриц с помощью MathNet.Numerics выполняется медленнее, чем обычное умножение?

Последнее сообщение Anonymous « 28 ноя 2024, 01:00
Добавлено в форуме C#

Anonymous » 28 ноя 2024, 01:00 » в форуме C#

Я использую библиотеку MathNet.Numerics в своем приложении C# для выполнения матричных операций.
Однако я заметил, что умножение матриц с использованием этой библиотеки происходит значительно медленнее по сравнению с обычным скалярным умножением или...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 01:00
Почему умножение матриц с помощью MathNet.Numerics выполняется медленнее, чем обычное умножение?

Последнее сообщение Anonymous « 28 ноя 2024, 13:56
Добавлено в форуме C#

Anonymous » 28 ноя 2024, 13:56 » в форуме C#

Я использую библиотеку MathNet.Numerics в своем приложении C# для выполнения матричных операций.
Однако я заметил, что умножение матриц с использованием этой библиотеки происходит значительно медленнее по сравнению с обычным скалярным умножением или...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 13:56

Вернуться в «Python»