AVX2: вычисление скалярного произведения 512 массивов с плавающей запятой. ⇐ C++
AVX2: вычисление скалярного произведения 512 массивов с плавающей запятой.
В предисловии к этому я скажу, что я новичок во встроенных функциях SIMD.
По сути, у меня есть процессор, который поддерживает встроенный процессор AVX2 (ЦП Intel(R) Core(TM) i5-7500T @ 2,70 ГГц). Я хотел бы знать самый быстрый способ вычисления скалярного произведения двух std::vector размера 512.
Я немного покопался в Интернете и нашел это и это, и этот вопрос о переполнении стека предлагает использовать следующую функцию __m256 _mm256_dp_ps(__m256 m1, __m256 m2, const int Mask);, однако эти все предлагают разные способы выполнения скалярного произведения. Я не уверен, какой способ сделать это правильно (и самый быстрый).
В частности, я ищу самый быстрый способ скалярного произведения для вектора размером 512 (потому что я знаю, что размер вектора влияет на реализацию).
Спасибо за помощь
Изменить 1: Меня также немного смущает флаг -mavx2 gcc. Если я использую эти функции AVX2, нужно ли мне добавлять флаг при компиляции? Кроме того, сможет ли gcc выполнить за меня эту оптимизацию (скажем, если я использую флаг -OFast gcc), если я напишу наивную реализацию скалярного произведения?
Изменить 2 Если у кого-то есть время и силы, я был бы очень признателен, если бы вы написали полную реализацию. Я уверен, что другие новички также оценят эту информацию.
В предисловии к этому я скажу, что я новичок во встроенных функциях SIMD.
По сути, у меня есть процессор, который поддерживает встроенный процессор AVX2 (ЦП Intel(R) Core(TM) i5-7500T @ 2,70 ГГц). Я хотел бы знать самый быстрый способ вычисления скалярного произведения двух std::vector размера 512.
Я немного покопался в Интернете и нашел это и это, и этот вопрос о переполнении стека предлагает использовать следующую функцию __m256 _mm256_dp_ps(__m256 m1, __m256 m2, const int Mask);, однако эти все предлагают разные способы выполнения скалярного произведения. Я не уверен, какой способ сделать это правильно (и самый быстрый).
В частности, я ищу самый быстрый способ скалярного произведения для вектора размером 512 (потому что я знаю, что размер вектора влияет на реализацию).
Спасибо за помощь
Изменить 1: Меня также немного смущает флаг -mavx2 gcc. Если я использую эти функции AVX2, нужно ли мне добавлять флаг при компиляции? Кроме того, сможет ли gcc выполнить за меня эту оптимизацию (скажем, если я использую флаг -OFast gcc), если я напишу наивную реализацию скалярного произведения?
Изменить 2 Если у кого-то есть время и силы, я был бы очень признателен, если бы вы написали полную реализацию. Я уверен, что другие новички также оценят эту информацию.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение