AVX2: вычисление скалярного произведения 512 массивов с плавающей запятой.C++

Программы на C++. Форум разработчиков
Ответить Пред. темаСлед. тема
Гость
 AVX2: вычисление скалярного произведения 512 массивов с плавающей запятой.

Сообщение Гость »


В предисловии к этому я скажу, что я новичок во встроенных функциях SIMD.

По сути, у меня есть процессор, который поддерживает встроенный процессор AVX2 (ЦП Intel(R) Core(TM) i5-7500T @ 2,70 ГГц). Я хотел бы знать самый быстрый способ вычисления скалярного произведения двух std::vector размера 512.

Я немного покопался в Интернете и нашел это и это, и этот вопрос о переполнении стека предлагает использовать следующую функцию __m256 _mm256_dp_ps(__m256 m1, __m256 m2, const int Mask);, однако эти все предлагают разные способы выполнения скалярного произведения. Я не уверен, какой способ сделать это правильно (и самый быстрый).

В частности, я ищу самый быстрый способ скалярного произведения для вектора размером 512 (потому что я знаю, что размер вектора влияет на реализацию).

Спасибо за помощь

Изменить 1: Меня также немного смущает флаг -mavx2 gcc. Если я использую эти функции AVX2, нужно ли мне добавлять флаг при компиляции? Кроме того, сможет ли gcc выполнить за меня эту оптимизацию (скажем, если я использую флаг -OFast gcc), если я напишу наивную реализацию скалярного произведения?

Изменить 2 Если у кого-то есть время и силы, я был бы очень признателен, если бы вы написали полную реализацию. Я уверен, что другие новички также оценят эту информацию.
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «C++»