Векторизованная функция медленнее, чем эталон, когда скомпилируется без оптимизации (несколько 4-элементных DOT-продукци

Векторизованная функция медленнее, чем эталон, когда скомпилируется без оптимизации (несколько 4-элементных DOT-продукци ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

Векторизованная функция медленнее, чем эталон, когда скомпилируется без оптимизации (несколько 4-элементных DOT-продукци

Цитата

Сообщение Anonymous » 26 фев 2025, 00:47

Я в настоящее время следую за книгой «Архитектура игрового двигателя», и автор приведет примеры двух функций - векторизованный и не векторизованный расчет продукта DOT. Книга гласит, что векторизованный человек примерно на 3,5 быстрее, хотя я не могу ее достичь. 
Вот моя векторизованная функция 
//SLOWER?
void DotArrays_sse_transpose(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; i += 4)
{
__m128 vaX = _mm_load_ps(&a[(i + 0) * 4]); // a[0], a[1], a[2], a[3]
__m128 vaY = _mm_load_ps(&a[(i + 1) * 4]); // a[4], a[5], a[6], a[7]
__m128 vaZ = _mm_load_ps(&a[(i + 2) * 4]); // a[8], a[9], a[10], a[11]
__m128 vaW = _mm_load_ps(&a[(i + 3) * 4]); // a[12], a[13], a[14], a[15]
__m128 vbX = _mm_load_ps(&b[(i + 0) * 4]); // b[0], b[1], b[2], b[3]
__m128 vbY = _mm_load_ps(&b[(i + 1) * 4]); // b[4], b[5], b[6], b[7]
__m128 vbZ = _mm_load_ps(&b[(i + 2) * 4]); // b[8], b[9], b[10], b[11]
__m128 vbW = _mm_load_ps(&b[(i + 3) * 4]); // b[12], b[13], b[14], b[15]
_MM_TRANSPOSE4_PS(vaX, vaY, vaZ, vaW);
_MM_TRANSPOSE4_PS(vbX, vbY, vbZ, vbW);
__m128 result;
result = _mm_mul_ps(vaX, vbX);
result = _mm_add_ps(result, _mm_mul_ps(vaY, vbY));
result = _mm_add_ps(result, _mm_mul_ps(vaZ, vbZ));
result = _mm_add_ps(result, _mm_mul_ps(vaW, vbW));
_mm_store_ps(&r, result);
}
}
< /code>
Как видите, я транспонировал векторы позже в функции. Я сделал это, поскольку данные не подготовлены к началу, но все равно должно быть быстрее, согласно книге.
Не векторная функция выглядит следующим образом: 
/*
* Given two arrays of four elements vectors, calculate their dot product
*/
void DotArrays_ref(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; ++i)
{
const int j = i * 4;
r = a[j + 0] * b[j + 0]
+ a[j + 1] * b[j + 1]
+ a[j + 2] * b[j + 2]
+ a[j + 3] * b[j + 3];
}
}
< /code>
Я только добавлю, что эти функции выглядят точно так же, как предложенные автором, и я считаю, что вернуть, что это не быстрее. Мне пришлось пропустить некоторые детали, хотя я не вижу ее. Я попытался отключить оптимизацию, и это не помогло. 
Наконец, я хочу показать, как я выполняю функции: 
//int c = 10240 * 10240;
int c = 512 * 512;
begin = std::chrono::steady_clock::now();
DotArrays_sse_transpose(c, results, dataA, dataB);
std::cout

Подробнее здесь: https://stackoverflow.com/questions/794 ... ization-mu

1740520046

Anonymous

 Я в настоящее время следую за книгой «Архитектура игрового двигателя», и автор приведет примеры двух функций - векторизованный и не векторизованный расчет продукта DOT. Книга гласит, что векторизованный человек примерно на 3,5 быстрее, хотя я не могу ее достичь. < /P>
Вот моя векторизованная функция < /p>
//SLOWER?
void DotArrays_sse_transpose(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; i += 4)
{
__m128 vaX = _mm_load_ps(&a[(i + 0) * 4]);  // a[0], a[1], a[2], a[3]
__m128 vaY = _mm_load_ps(&a[(i + 1) * 4]);  // a[4], a[5], a[6], a[7]
__m128 vaZ = _mm_load_ps(&a[(i + 2) * 4]);  // a[8], a[9], a[10], a[11]
__m128 vaW = _mm_load_ps(&a[(i + 3) * 4]);  // a[12], a[13], a[14], a[15]
__m128 vbX = _mm_load_ps(&b[(i + 0) * 4]);  // b[0], b[1], b[2], b[3]
__m128 vbY = _mm_load_ps(&b[(i + 1) * 4]);  // b[4], b[5], b[6], b[7]
__m128 vbZ = _mm_load_ps(&b[(i + 2) * 4]);  // b[8], b[9], b[10], b[11]
__m128 vbW = _mm_load_ps(&b[(i + 3) * 4]);  // b[12], b[13], b[14], b[15]
_MM_TRANSPOSE4_PS(vaX, vaY, vaZ, vaW);
_MM_TRANSPOSE4_PS(vbX, vbY, vbZ, vbW);
__m128 result;
result = _mm_mul_ps(vaX, vbX);
result = _mm_add_ps(result, _mm_mul_ps(vaY, vbY));
result = _mm_add_ps(result, _mm_mul_ps(vaZ, vbZ));
result = _mm_add_ps(result, _mm_mul_ps(vaW, vbW));
_mm_store_ps(&r[i], result);
}
}
< /code>
Как видите, я транспонировал векторы позже в функции. Я сделал это, поскольку данные не подготовлены к началу, но все равно должно быть быстрее, согласно книге.
Не векторная функция выглядит следующим образом: < /p>
/*
* Given two arrays of four elements vectors, calculate their dot product
*/
void DotArrays_ref(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; ++i)
{
const int j = i * 4;
r[i] = a[j + 0] * b[j + 0]
+ a[j + 1] * b[j + 1]
+ a[j + 2] * b[j + 2]
+ a[j + 3] * b[j + 3];
}
}
< /code>
Я только добавлю, что эти функции выглядят точно так же, как предложенные автором, и я считаю, что вернуть, что это не быстрее. Мне пришлось пропустить некоторые детали, хотя я не вижу ее. Я попытался отключить оптимизацию, и это не помогло. < /P>
Наконец, я хочу показать, как я выполняю функции: < /p>
//int c = 10240 * 10240;
int c = 512 * 512;
begin = std::chrono::steady_clock::now();
DotArrays_sse_transpose(c, results, dataA, dataB);
std::cout 

Подробнее здесь: [url]https://stackoverflow.com/questions/79467749/vectorized-function-slower-than-reference-when-compiled-without-optimization-mu[/url]