Почему GCC, ICX и Clang не выполняют автоматическую векторизацию с использованием инструкций на основе AVX-512 на процес

Почему GCC, ICX и Clang не выполняют автоматическую векторизацию с использованием инструкций на основе AVX-512 на процес ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

Почему GCC, ICX и Clang не выполняют автоматическую векторизацию с использованием инструкций на основе AVX-512 на процес

Цитата

Сообщение Anonymous » 10 ноя 2024, 14:58

Мой код чрезвычайно прост

Код: Выделить всё

void x(float* array, float const LOW_THRESHOLD, float const HIGH_THRESHOLD) noexcept
{
for ( int index = 0; index < 16; ++index )
{
array[ index ] = LOW_THRESHOLD < array[ index ] && array[ index ] < HIGH_THRESHOLD ? 1.0f : 0.0f;
}
}

Код выглядит как образец векторизации на основе AVX-512.
Я решил использовать Godbolt для проверки
Похоже, что Clang, ICX и GCC векторизуют только для архитектур на базе AMD (и znver4, и znver5, но не znver3, который не поддерживает AVX512)
Однако я выбрал Intel проверить наличие:-

Skylake AVX512
Granite Rapids
Emerald Rapids

Для всех трех я старался использовать последнюю версию компилятора, представленную в Godbolt.
Clang Intel Emerald Пороги (-O3 -march=emeraldrapids)

Код: Выделить всё

.LCPI0_0:
.long   0x3f800000
x(float*, float, float):
vbroadcastss    ymm0, xmm0
vmovups ymm2, ymmword ptr [rdi]
vmovups ymm3, ymmword ptr [rdi + 32]
vcmpltps        k1, ymm0, ymm2
vbroadcastss    ymm1, xmm1
vcmpltps        k1 {k1}, ymm2, ymm1
vbroadcastss    ymm2, dword ptr [rip + .LCPI0_0]
vmovaps ymm4 {k1} {z}, ymm2
vmovups ymmword ptr [rdi], ymm4
vcmpltps        k1, ymm0, ymm3
vcmpltps        k1 {k1}, ymm3, ymm1
vmovaps ymm0 {k1} {z}, ymm2
vmovups ymmword ptr [rdi + 32], ymm0
vzeroupper
ret

Clang AMD Ryzen v5 (-O3 -march=znver5)

Код: Выделить всё

.LCPI0_0:
.long   0x3f800000
x(float*, float, float):
vmovups zmm2, zmmword ptr [rdi]
vbroadcastss    zmm0, xmm0
vbroadcastss    zmm1, xmm1
vcmpltps        k1, zmm0, zmm2
vcmpltps        k1 {k1}, zmm2, zmm1
vbroadcastss    zmm0 {k1} {z}, dword ptr [rip + .LCPI0_0]
vmovups zmmword ptr [rdi], zmm0
vzeroupper
ret

Мое первоначальное мнение заключалось в том, что оптимизация была упущена.

Но это не должно быть так, поскольку ICX — собственный компилятор Intel.

Сотрудники Intel и AMD вносят свой вклад в другие компиляторы с открытым исходным кодом, включая Clang и GCC.

Шансы пропустить это немного малы.
Использует AVX512 не рекомендуется для Intel архитектура?

Может быть поэтому оба компилятора не выполняют автоматическую векторизацию?
(Код взят из сравнения и маскировки с плавающей запятой AVX-512. Спасибо @Terrordrone )

Подробнее здесь: https://stackoverflow.com/questions/791 ... uctions-on

1731239934

Anonymous

Мой код чрезвычайно прост
[code]void x(float* array, float const LOW_THRESHOLD, float const HIGH_THRESHOLD) noexcept
{
for ( int index = 0; index < 16; ++index )
{
array[ index ] = LOW_THRESHOLD < array[ index ] && array[ index ] < HIGH_THRESHOLD ? 1.0f : 0.0f;
}
}
[/code]
Код выглядит как образец векторизации на основе AVX-512.
Я решил использовать Godbolt для проверки
Похоже, что Clang, ICX и GCC векторизуют только для архитектур на базе AMD (и znver4, и znver5, но не znver3, который не поддерживает AVX512)
Однако я выбрал Intel проверить наличие:-
[list]
[*]Skylake AVX512
[*]Granite Rapids
[*]Emerald Rapids
[/list]
Для всех трех я старался использовать последнюю версию компилятора, представленную в Godbolt.
Clang Intel Emerald Пороги (-O3 -march=emeraldrapids)
[code].LCPI0_0:
.long   0x3f800000
x(float*, float, float):
vbroadcastss    ymm0, xmm0
vmovups ymm2, ymmword ptr [rdi]
vmovups ymm3, ymmword ptr [rdi + 32]
vcmpltps        k1, ymm0, ymm2
vbroadcastss    ymm1, xmm1
vcmpltps        k1 {k1}, ymm2, ymm1
vbroadcastss    ymm2, dword ptr [rip + .LCPI0_0]
vmovaps ymm4 {k1} {z}, ymm2
vmovups ymmword ptr [rdi], ymm4
vcmpltps        k1, ymm0, ymm3
vcmpltps        k1 {k1}, ymm3, ymm1
vmovaps ymm0 {k1} {z}, ymm2
vmovups ymmword ptr [rdi + 32], ymm0
vzeroupper
ret
[/code]
Clang AMD Ryzen v5 (-O3 -march=znver5)
[code].LCPI0_0:
.long   0x3f800000
x(float*, float, float):
vmovups zmm2, zmmword ptr [rdi]
vbroadcastss    zmm0, xmm0
vbroadcastss    zmm1, xmm1
vcmpltps        k1, zmm0, zmm2
vcmpltps        k1 {k1}, zmm2, zmm1
vbroadcastss    zmm0 {k1} {z}, dword ptr [rip + .LCPI0_0]
vmovups zmmword ptr [rdi], zmm0
vzeroupper
ret
[/code]
Мое первоначальное мнение заключалось в том, что оптимизация была упущена.

Но это не должно быть так, поскольку ICX — собственный компилятор Intel.

Сотрудники Intel и AMD вносят свой вклад в другие компиляторы с открытым исходным кодом, включая Clang и GCC.

Шансы пропустить это немного малы.
Использует AVX512 не рекомендуется для Intel архитектура?

Может быть поэтому оба компилятора не выполняют автоматическую векторизацию?
(Код взят из сравнения и маскировки с плавающей запятой AVX-512. Спасибо @Terrordrone ) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79174824/why-do-gcc-icx-and-clang-not-auto-vectorize-using-avx-512-based-instructions-on[/url]