На бумаге я нарисовал полную форму этого алгоритма, и на бумаге он должен работать нормально. Я натыкаюсь на тонкости с приведением регистров (256/128/256) или я действительно где-то напутал в структуре алгоритма?
Для удобства я поставил ванильный код и код AVX в программе просмотра Godbolt, чтобы вы могли видеть сгенерированную сборку по своему желанию.
Стандартный код
https://godbolt.org /g/v47RKH
Моя попытка AVX 1:
https://godbolt.org/g/oH1DpO
Моя попытка AVX 2:
https://godbolt.org/g/QFtdKr (убрано 5 циклов и уменьшено количество кастингов, легче читать)
Как ни странно, код SSE использует скалярные операции, что меня уму непостижимо, поскольку их определенно можно ускорить с помощью горизонтальных широковещательных рассылок, муллов и добавлений. Я пытаюсь поднять эту концепцию на один уровень.
RHS никогда не нужно менять, но, по сути, если LHS равен {a, b, ... , p},
а LHS равна {1, 2, ..., 16}, тогда нам просто нужно 2 регистра для хранения двух половин RHS, а затем 2 регистра для хранения заданной строки LHS в формах {a, a, a, a, b, b, b, b} и {c, c, c, c, d, d, d, d}. Это достигается за счет 2 трансляций и кастинга 256/128/256.
Получаем промежуточные результаты
{a*1, a*2, a*3, a*4, b*5, b*6, b*7, b*8} => row[0]
и
{c*9, c* 10, c*11, c*12, d*13, d*14, d*15, d*16} => row[1]
И это разворачивается один раз относительно LHS, поэтому мы генерируем
{e*1, ... f*8}, {g*9, ... h*16} => row[2], row[3]
Далее добавьте r0, r1 и r2,r3 вместе (оставляя r0 и r2 в качестве текущих промежуточных значений)
Наконец, извлеките верхнюю половину строки [0] в нижнюю половину resHalf, вставьте нижнюю половину row[2] в верхнюю половину resHalf, вставьте старшую половину row[2] в верхнюю половину row[0], а затем добавьте row[0] в resHalf.
По всем правилам, в конце итерации у нас должно остаться значение resHalf[0], равное следующему: i = 0
{a*1 + b*2 + c*3 + d*4, a*5 + b*6 + c*7 + d*8,
a*9 + b*10 + c*11 + d*12, a*13 + b*14 + c*15 + d*16,
e*1 + ... + h*4, e*5 + ... + h*8,
e*9 + ... + h*12 , e*13 + ... + h*16
Однако мой алгоритм выдает следующее:
2x {a*1 + c*3, a*5 + c*7, a*9 + c*11, a*13 + c*15},
2x {e*1 + g*3, e*5 + g*7, e*9 + g*11, e*13 + g*15}
И что еще страшнее, если я поменяю местами rhsHolders[0/1] в троичном условии, это не произойдет вообще изменить результаты. Как будто компилятор игнорирует одну из операций замены и добавления. И Clang 4, и GCC 7 делают это, так где же я облажался?
РЕДАКТИРОВАТЬ: вывод должен состоять из 4 строк {10, 26, 42, 58}, но Я получаю {4, 12, 20, 28
Подробнее здесь: https://stackoverflow.com/questions/429 ... n-oddities
Внутреннее уточнение AVX, странности умножения матриц 4x4 ⇐ C++
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение