Внутреннее уточнение AVX, странности умножения матриц 4x4C++

Программы на C++. Форум разработчиков
Ответить Пред. темаСлед. тема
Anonymous
 Внутреннее уточнение AVX, странности умножения матриц 4x4

Сообщение Anonymous »

На бумаге я нарисовал полную форму этого алгоритма, и на бумаге он должен работать нормально. Я натыкаюсь на тонкости с приведением регистров (256/128/256) или я действительно где-то напутал в структуре алгоритма?

Для удобства я поставил ванильный код и код AVX в программе просмотра Godbolt, чтобы вы могли видеть сгенерированную сборку по своему желанию.

Стандартный код
https://godbolt.org /g/v47RKH

Моя попытка AVX 1:
https://godbolt.org/g/oH1DpO

Моя попытка AVX 2:
https://godbolt.org/g/QFtdKr (убрано 5 циклов и уменьшено количество кастингов, легче читать)

Как ни странно, код SSE использует скалярные операции, что меня уму непостижимо, поскольку их определенно можно ускорить с помощью горизонтальных широковещательных рассылок, муллов и добавлений. Я пытаюсь поднять эту концепцию на один уровень.

RHS никогда не нужно менять, но, по сути, если LHS равен {a, b, ... , p},
а LHS равна {1, 2, ..., 16}, тогда нам просто нужно 2 регистра для хранения двух половин RHS, а затем 2 регистра для хранения заданной строки LHS в формах {a, a, a, a, b, b, b, b} и {c, c, c, c, d, d, d, d}. Это достигается за счет 2 трансляций и кастинга 256/128/256.

Получаем промежуточные результаты


{a*1, a*2, a*3, a*4, b*5, b*6, b*7, b*8} => row[0]


и


{c*9, c* 10, c*11, c*12, d*13, d*14, d*15, d*16} => row[1]


И это разворачивается один раз относительно LHS, поэтому мы генерируем


{e*1, ... f*8}, {g*9, ... h*16} => row[2], row[3]


Далее добавьте r0, r1 и r2,r3 вместе (оставляя r0 и r2 в качестве текущих промежуточных значений)

Наконец, извлеките верхнюю половину строки [0] в нижнюю половину resHalf, вставьте нижнюю половину row[2] в верхнюю половину resHalf, вставьте старшую половину row[2] в верхнюю половину row[0], а затем добавьте row[0] в resHalf.

По всем правилам, в конце итерации у нас должно остаться значение resHalf[0], равное следующему: i = 0


{a*1 + b*2 + c*3 + d*4, a*5 + b*6 + c*7 + d*8,

a*9 + b*10 + c*11 + d*12, a*13 + b*14 + c*15 + d*16,

e*1 + ... + h*4, e*5 + ... + h*8,

e*9 + ... + h*12 , e*13 + ... + h*16


Однако мой алгоритм выдает следующее:


2x {a*1 + c*3, a*5 + c*7, a*9 + c*11, a*13 + c*15},

2x {e*1 + g*3, e*5 + g*7, e*9 + g*11, e*13 + g*15}


И что еще страшнее, если я поменяю местами rhsHolders[0/1] в троичном условии, это не произойдет вообще изменить результаты. Как будто компилятор игнорирует одну из операций замены и добавления. И Clang 4, и GCC 7 делают это, так где же я облажался?

РЕДАКТИРОВАТЬ: вывод должен состоять из 4 строк {10, 26, 42, 58}, но Я получаю {4, 12, 20, 28

Подробнее здесь: https://stackoverflow.com/questions/429 ... n-oddities
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Умножение матриц SIMD 4x4 на Android с помощью C++
    Anonymous » » в форуме Android
    0 Ответы
    18 Просмотры
    Последнее сообщение Anonymous
  • Работа с Rcpp::List матриц с плотными или разреженными типами матриц
    Anonymous » » в форуме C++
    0 Ответы
    18 Просмотры
    Последнее сообщение Anonymous
  • Оптимизированная для C библиотека умножения матриц с интерфейсом Java
    Anonymous » » в форуме JAVA
    0 Ответы
    27 Просмотры
    Последнее сообщение Anonymous
  • Действителен ли этот тест? tinygrad невероятно быстр по сравнению с torch или numpy для умножения матриц (ЦП) среднего р
    Anonymous » » в форуме Python
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous
  • Невозможно использовать оператор * во время умножения матриц.
    Anonymous » » в форуме C++
    0 Ответы
    16 Просмотры
    Последнее сообщение Anonymous

Вернуться в «C++»