На бумаге я нарисовал полную форму этого алгоритма, и на бумаге он должен работать нормально. Я натыкаюсь на тонкости с приведением регистров (256/128/256) или я действительно где-то напутал в структуре алгоритма?
Для удобства я поставил ванильный код и код AVX в программе просмотра Godbolt, чтобы вы могли видеть сгенерированную сборку по своему желанию.
Стандартный код
https://godbolt.org /g/v47RKH
Моя попытка AVX 1:
https://godbolt.org/g/oH1DpO
Моя попытка AVX 2:
https://godbolt.org/g/QFtdKr (убрано 5 циклов и уменьшено количество кастингов, легче читать)
Как ни странно, код SSE использует скалярные операции, что меня уму непостижимо, поскольку их определенно можно ускорить с помощью горизонтальных широковещательных рассылок, муллов и добавлений. Я пытаюсь поднять эту концепцию на один уровень.
RHS никогда не нужно менять, но, по сути, если LHS равен {a, b, ... , p},
а LHS равна {1, 2, ..., 16}, тогда нам просто нужно 2 регистра для хранения двух половин RHS, а затем 2 регистра для хранения заданной строки LHS в формах {a, a, a, a, b, b, b, b} и {c, c, c, c, d, d, d, d}. Это достигается за счет 2 трансляций и кастинга 256/128/256.
Получаем промежуточные результаты
{a*1, a*2, a*3, a*4, b*5, b*6, b*7, b*8} => row[0]
и
{c*9, c* 10, c*11, c*12, d*13, d*14, d*15, d*16} => row[1]
И это разворачивается один раз относительно LHS, поэтому мы генерируем
{e*1, ... f*8}, {g*9, ... h*16} => row[2], row[3]
Далее добавьте r0, r1 и r2,r3 вместе (оставляя r0 и r2 в качестве текущих промежуточных значений)
Наконец, извлеките верхнюю половину строки [0] в нижнюю половину resHalf, вставьте нижнюю половину row[2] в верхнюю половину resHalf, вставьте старшую половину row[2] в верхнюю половину row[0], а затем добавьте row[0] в resHalf.
По всем правилам, в конце итерации у нас должно остаться значение resHalf[0], равное следующему: i = 0
{a*1 + b*2 + c*3 + d*4, a*5 + b*6 + c*7 + d*8,
a*9 + b*10 + c*11 + d*12, a*13 + b*14 + c*15 + d*16,
e*1 + ... + h*4, e*5 + ... + h*8,
e*9 + ... + h*12 , e*13 + ... + h*16
Однако мой алгоритм выдает следующее:
2x {a*1 + c*3, a*5 + c*7, a*9 + c*11, a*13 + c*15},
2x {e*1 + g*3, e*5 + g*7, e*9 + g*11, e*13 + g*15}
И что еще страшнее, если я поменяю местами rhsHolders[0/1] в троичном условии, это не произойдет вообще изменить результаты. Как будто компилятор игнорирует одну из операций замены и добавления. И Clang 4, и GCC 7 делают это, так где же я облажался?
РЕДАКТИРОВАТЬ: вывод должен состоять из 4 строк {10, 26, 42, 58}, но Я получаю {4, 12, 20, 28
Подробнее здесь: https://stackoverflow.com/questions/429 ... n-oddities
Внутреннее уточнение AVX, странности умножения матриц 4x4 ⇐ C++
Программы на C++. Форум разработчиков
-
Anonymous
1727309591
Anonymous
На бумаге я нарисовал полную форму этого алгоритма, и на бумаге он должен работать нормально. Я натыкаюсь на тонкости с приведением регистров (256/128/256) или я действительно где-то напутал в структуре алгоритма?
Для удобства я поставил ванильный код и код AVX в программе просмотра Godbolt, чтобы вы могли видеть сгенерированную сборку по своему желанию.
Стандартный код
https://godbolt.org /g/v47RKH
Моя попытка AVX 1:
https://godbolt.org/g/oH1DpO
Моя попытка AVX 2:
https://godbolt.org/g/QFtdKr (убрано 5 циклов и уменьшено количество кастингов, легче читать)
Как ни странно, код SSE использует скалярные операции, что меня уму непостижимо, поскольку их определенно можно ускорить с помощью горизонтальных широковещательных рассылок, муллов и добавлений. Я пытаюсь поднять эту концепцию на один уровень.
RHS никогда не нужно менять, но, по сути, если LHS равен {a, b, ... , p},
а LHS равна {1, 2, ..., 16}, тогда нам просто нужно 2 регистра для хранения двух половин RHS, а затем 2 регистра для хранения заданной строки LHS в формах {a, a, a, a, b, b, b, b} и {c, c, c, c, d, d, d, d}. Это достигается за счет 2 трансляций и кастинга 256/128/256.
Получаем промежуточные результаты
{a*1, a*2, a*3, a*4, b*5, b*6, b*7, b*8} => row[0]
и
{c*9, c* 10, c*11, c*12, d*13, d*14, d*15, d*16} => row[1]
И это разворачивается один раз относительно LHS, поэтому мы генерируем
{e*1, ... f*8}, {g*9, ... h*16} => row[2], row[3]
Далее добавьте r0, r1 и r2,r3 вместе (оставляя r0 и r2 в качестве текущих промежуточных значений)
Наконец, извлеките верхнюю половину строки [0] в нижнюю половину resHalf, вставьте нижнюю половину row[2] в верхнюю половину resHalf, вставьте старшую половину row[2] в верхнюю половину row[0], а затем добавьте row[0] в resHalf.
По всем правилам, в конце итерации у нас должно остаться значение resHalf[0], равное следующему: i = 0
{a*1 + b*2 + c*3 + d*4, a*5 + b*6 + c*7 + d*8,
a*9 + b*10 + c*11 + d*12, a*13 + b*14 + c*15 + d*16,
e*1 + ... + h*4, e*5 + ... + h*8,
e*9 + ... + h*12 , e*13 + ... + h*16
Однако мой алгоритм выдает следующее:
2x {a*1 + c*3, a*5 + c*7, a*9 + c*11, a*13 + c*15},
2x {e*1 + g*3, e*5 + g*7, e*9 + g*11, e*13 + g*15}
И что еще страшнее, если я поменяю местами rhsHolders[0/1] в троичном условии, это не произойдет вообще изменить результаты. Как будто компилятор игнорирует одну из операций замены и добавления. И Clang 4, и GCC 7 делают это, так где же я облажался?
РЕДАКТИРОВАТЬ: вывод должен состоять из 4 строк {10, 26, 42, 58}, но Я получаю {4, 12, 20, 28
Подробнее здесь: [url]https://stackoverflow.com/questions/42979059/avx-intrinsic-clarification-4x4-matrix-multiplication-oddities[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия