Векторизованная функция медленнее, чем эталон, когда скомпилируется без оптимизации (несколько 4-элементных DOT-продукциC++

Программы на C++. Форум разработчиков
Ответить Пред. темаСлед. тема
Anonymous
 Векторизованная функция медленнее, чем эталон, когда скомпилируется без оптимизации (несколько 4-элементных DOT-продукци

Сообщение Anonymous »

Я в настоящее время следую за книгой «Архитектура игрового двигателя», и автор приведет примеры двух функций - векторизованный и не векторизованный расчет продукта DOT. Книга гласит, что векторизованный человек примерно на 3,5 быстрее, хотя я не могу ее достичь. < /P>
Вот моя векторизованная функция < /p>
//SLOWER?
void DotArrays_sse_transpose(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; i += 4)
{
__m128 vaX = _mm_load_ps(&a[(i + 0) * 4]); // a[0], a[1], a[2], a[3]
__m128 vaY = _mm_load_ps(&a[(i + 1) * 4]); // a[4], a[5], a[6], a[7]
__m128 vaZ = _mm_load_ps(&a[(i + 2) * 4]); // a[8], a[9], a[10], a[11]
__m128 vaW = _mm_load_ps(&a[(i + 3) * 4]); // a[12], a[13], a[14], a[15]
__m128 vbX = _mm_load_ps(&b[(i + 0) * 4]); // b[0], b[1], b[2], b[3]
__m128 vbY = _mm_load_ps(&b[(i + 1) * 4]); // b[4], b[5], b[6], b[7]
__m128 vbZ = _mm_load_ps(&b[(i + 2) * 4]); // b[8], b[9], b[10], b[11]
__m128 vbW = _mm_load_ps(&b[(i + 3) * 4]); // b[12], b[13], b[14], b[15]
_MM_TRANSPOSE4_PS(vaX, vaY, vaZ, vaW);
_MM_TRANSPOSE4_PS(vbX, vbY, vbZ, vbW);
__m128 result;
result = _mm_mul_ps(vaX, vbX);
result = _mm_add_ps(result, _mm_mul_ps(vaY, vbY));
result = _mm_add_ps(result, _mm_mul_ps(vaZ, vbZ));
result = _mm_add_ps(result, _mm_mul_ps(vaW, vbW));
_mm_store_ps(&r, result);
}
}
< /code>
Как видите, я транспонировал векторы позже в функции. Я сделал это, поскольку данные не подготовлены к началу, но все равно должно быть быстрее, согласно книге.
Не векторная функция выглядит следующим образом: < /p>
/*
* Given two arrays of four elements vectors, calculate their dot product
*/
void DotArrays_ref(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; ++i)
{
const int j = i * 4;
r = a[j + 0] * b[j + 0]
+ a[j + 1] * b[j + 1]
+ a[j + 2] * b[j + 2]
+ a[j + 3] * b[j + 3];
}
}
< /code>
Я только добавлю, что эти функции выглядят точно так же, как предложенные автором, и я считаю, что вернуть, что это не быстрее. Мне пришлось пропустить некоторые детали, хотя я не вижу ее. Я попытался отключить оптимизацию, и это не помогло. < /P>
Наконец, я хочу показать, как я выполняю функции: < /p>
//int c = 10240 * 10240;
int c = 512 * 512;
begin = std::chrono::steady_clock::now();
DotArrays_sse_transpose(c, results, dataA, dataB);
std::cout

Подробнее здесь: https://stackoverflow.com/questions/794 ... ization-mu
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Векторизованная функция медленнее, чем эталон [C ++]
    Anonymous » » в форуме C++
    0 Ответы
    4 Просмотры
    Последнее сообщение Anonymous
  • Почему мой эталон использует __mm_prefetch медленнее?
    Anonymous » » в форуме C++
    0 Ответы
    5 Просмотры
    Последнее сообщение Anonymous
  • Почему мой эталон использует __mm_prefetch медленнее?
    Anonymous » » в форуме C++
    0 Ответы
    7 Просмотры
    Последнее сообщение Anonymous
  • Почему мой эталон использует __mm_prefetch медленнее?
    Anonymous » » в форуме C++
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Разница между Numpy.dot и A.Dot (b)
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous

Вернуться в «C++»