AVX2: вычисление скалярного произведения 512 массивов с плавающей запятой.C++

Программы на C++. Форум разработчиков
Гость
AVX2: вычисление скалярного произведения 512 массивов с плавающей запятой.

Сообщение Гость »


В предисловии к этому я скажу, что я новичок во встроенных функциях SIMD.

По сути, у меня есть процессор, который поддерживает встроенный процессор AVX2 (ЦП Intel(R) Core(TM) i5-7500T @ 2,70 ГГц). Я хотел бы знать самый быстрый способ вычисления скалярного произведения двух std::vector размера 512.

Я немного покопался в Интернете и нашел это и это, и этот вопрос о переполнении стека предлагает использовать следующую функцию __m256 _mm256_dp_ps(__m256 m1, __m256 m2, const int Mask);, однако эти все предлагают разные способы выполнения скалярного произведения. Я не уверен, какой способ сделать это правильно (и самый быстрый).

В частности, я ищу самый быстрый способ скалярного произведения для вектора размером 512 (потому что я знаю, что размер вектора влияет на реализацию).

Спасибо за помощь

Изменить 1: Меня также немного смущает флаг -mavx2 gcc. Если я использую эти функции AVX2, нужно ли мне добавлять флаг при компиляции? Кроме того, сможет ли gcc выполнить за меня эту оптимизацию (скажем, если я использую флаг -OFast gcc), если я напишу наивную реализацию скалярного произведения?

Изменить 2 Если у кого-то есть время и силы, я был бы очень признателен, если бы вы написали полную реализацию. Я уверен, что другие новички также оценят эту информацию.

Вернуться в «C++»