Внутреннее уточнение AVX, странности умножения матриц 4x4

Внутреннее уточнение AVX, странности умножения матриц 4x4 ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

Внутреннее уточнение AVX, странности умножения матриц 4x4

Сообщение Anonymous » 26 сен 2024, 03:13

На бумаге я нарисовал полную форму этого алгоритма, и на бумаге он должен работать нормально. Я натыкаюсь на тонкости с приведением регистров (256/128/256) или я действительно где-то напутал в структуре алгоритма?

Для удобства я поставил ванильный код и код AVX в программе просмотра Godbolt, чтобы вы могли видеть сгенерированную сборку по своему желанию.

Стандартный код
https://godbolt.org /g/v47RKH

Моя попытка AVX 1:
https://godbolt.org/g/oH1DpO

Моя попытка AVX 2:
https://godbolt.org/g/QFtdKr (убрано 5 циклов и уменьшено количество кастингов, легче читать)

Как ни странно, код SSE использует скалярные операции, что меня уму непостижимо, поскольку их определенно можно ускорить с помощью горизонтальных широковещательных рассылок, муллов и добавлений. Я пытаюсь поднять эту концепцию на один уровень.

RHS никогда не нужно менять, но, по сути, если LHS равен {a, b, ... , p},
а LHS равна {1, 2, ..., 16}, тогда нам просто нужно 2 регистра для хранения двух половин RHS, а затем 2 регистра для хранения заданной строки LHS в формах {a, a, a, a, b, b, b, b} и {c, c, c, c, d, d, d, d}. Это достигается за счет 2 трансляций и кастинга 256/128/256.

Получаем промежуточные результаты

{a*1, a*2, a*3, a*4, b*5, b*6, b*7, b*8} => row[0]

и

{c*9, c* 10, c*11, c*12, d*13, d*14, d*15, d*16} => row[1]

И это разворачивается один раз относительно LHS, поэтому мы генерируем

{e*1, ... f*8}, {g*9, ... h*16} => row[2], row[3]

Далее добавьте r0, r1 и r2,r3 вместе (оставляя r0 и r2 в качестве текущих промежуточных значений)

Наконец, извлеките верхнюю половину строки [0] в нижнюю половину resHalf, вставьте нижнюю половину row[2] в верхнюю половину resHalf, вставьте старшую половину row[2] в верхнюю половину row[0], а затем добавьте row[0] в resHalf.

По всем правилам, в конце итерации у нас должно остаться значение resHalf[0], равное следующему: i = 0

{a*1 + b*2 + c*3 + d*4, a*5 + b*6 + c*7 + d*8,

a*9 + b*10 + c*11 + d*12, a*13 + b*14 + c*15 + d*16,

e*1 + ... + h*4, e*5 + ... + h*8,

e*9 + ... + h*12 , e*13 + ... + h*16

Однако мой алгоритм выдает следующее:

2x {a*1 + c*3, a*5 + c*7, a*9 + c*11, a*13 + c*15},

2x {e*1 + g*3, e*5 + g*7, e*9 + g*11, e*13 + g*15}

И что еще страшнее, если я поменяю местами rhsHolders[0/1] в троичном условии, это не произойдет вообще изменить результаты. Как будто компилятор игнорирует одну из операций замены и добавления. И Clang 4, и GCC 7 делают это, так где же я облажался?

РЕДАКТИРОВАТЬ: вывод должен состоять из 4 строк {10, 26, 42, 58}, но Я получаю {4, 12, 20, 28

Подробнее здесь: https://stackoverflow.com/questions/429 ... n-oddities

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «C++»