Я в настоящее время следую за книгой «Архитектура игрового двигателя», и автор приведет примеры двух функций - векторизованный и не векторизованный расчет продукта DOT. Книга гласит, что векторизованный человек примерно на 3,5 быстрее, хотя я не могу ее достичь. < /P>
Вот моя векторизованная функция < /p>
//SLOWER?
void DotArrays_sse_transpose(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; i += 4)
{
__m128 vaX = _mm_load_ps(&a[(i + 0) * 4]); // a[0], a[1], a[2], a[3]
__m128 vaY = _mm_load_ps(&a[(i + 1) * 4]); // a[4], a[5], a[6], a[7]
__m128 vaZ = _mm_load_ps(&a[(i + 2) * 4]); // a[8], a[9], a[10], a[11]
__m128 vaW = _mm_load_ps(&a[(i + 3) * 4]); // a[12], a[13], a[14], a[15]
__m128 vbX = _mm_load_ps(&b[(i + 0) * 4]); // b[0], b[1], b[2], b[3]
__m128 vbY = _mm_load_ps(&b[(i + 1) * 4]); // b[4], b[5], b[6], b[7]
__m128 vbZ = _mm_load_ps(&b[(i + 2) * 4]); // b[8], b[9], b[10], b[11]
__m128 vbW = _mm_load_ps(&b[(i + 3) * 4]); // b[12], b[13], b[14], b[15]
_MM_TRANSPOSE4_PS(vaX, vaY, vaZ, vaW);
_MM_TRANSPOSE4_PS(vbX, vbY, vbZ, vbW);
__m128 result;
result = _mm_mul_ps(vaX, vbX);
result = _mm_add_ps(result, _mm_mul_ps(vaY, vbY));
result = _mm_add_ps(result, _mm_mul_ps(vaZ, vbZ));
result = _mm_add_ps(result, _mm_mul_ps(vaW, vbW));
_mm_store_ps(&r, result);
}
}
< /code>
Как видите, я транспонировал векторы позже в функции. Я сделал это, поскольку данные не подготовлены к началу, но все равно должно быть быстрее, согласно книге.
Не векторная функция выглядит следующим образом: < /p>
/*
* Given two arrays of four elements vectors, calculate their dot product
*/
void DotArrays_ref(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; ++i)
{
const int j = i * 4;
r = a[j + 0] * b[j + 0]
+ a[j + 1] * b[j + 1]
+ a[j + 2] * b[j + 2]
+ a[j + 3] * b[j + 3];
}
}
< /code>
Я только добавлю, что эти функции выглядят точно так же, как предложенные автором, и я считаю, что вернуть, что это не быстрее. Мне пришлось пропустить некоторые детали, хотя я не вижу ее. Я попытался отключить оптимизацию, и это не помогло. < /P>
Наконец, я хочу показать, как я выполняю функции: < /p>
//int c = 10240 * 10240;
int c = 512 * 512;
begin = std::chrono::steady_clock::now();
DotArrays_sse_transpose(c, results, dataA, dataB);
std::cout
Подробнее здесь: https://stackoverflow.com/questions/794 ... ization-mu
Векторизованная функция медленнее, чем эталон, когда скомпилируется без оптимизации (несколько 4-элементных DOT-продукци ⇐ C++
Программы на C++. Форум разработчиков
1740520046
Anonymous
Я в настоящее время следую за книгой «Архитектура игрового двигателя», и автор приведет примеры двух функций - векторизованный и не векторизованный расчет продукта DOT. Книга гласит, что векторизованный человек примерно на 3,5 быстрее, хотя я не могу ее достичь. < /P>
Вот моя векторизованная функция < /p>
//SLOWER?
void DotArrays_sse_transpose(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; i += 4)
{
__m128 vaX = _mm_load_ps(&a[(i + 0) * 4]); // a[0], a[1], a[2], a[3]
__m128 vaY = _mm_load_ps(&a[(i + 1) * 4]); // a[4], a[5], a[6], a[7]
__m128 vaZ = _mm_load_ps(&a[(i + 2) * 4]); // a[8], a[9], a[10], a[11]
__m128 vaW = _mm_load_ps(&a[(i + 3) * 4]); // a[12], a[13], a[14], a[15]
__m128 vbX = _mm_load_ps(&b[(i + 0) * 4]); // b[0], b[1], b[2], b[3]
__m128 vbY = _mm_load_ps(&b[(i + 1) * 4]); // b[4], b[5], b[6], b[7]
__m128 vbZ = _mm_load_ps(&b[(i + 2) * 4]); // b[8], b[9], b[10], b[11]
__m128 vbW = _mm_load_ps(&b[(i + 3) * 4]); // b[12], b[13], b[14], b[15]
_MM_TRANSPOSE4_PS(vaX, vaY, vaZ, vaW);
_MM_TRANSPOSE4_PS(vbX, vbY, vbZ, vbW);
__m128 result;
result = _mm_mul_ps(vaX, vbX);
result = _mm_add_ps(result, _mm_mul_ps(vaY, vbY));
result = _mm_add_ps(result, _mm_mul_ps(vaZ, vbZ));
result = _mm_add_ps(result, _mm_mul_ps(vaW, vbW));
_mm_store_ps(&r[i], result);
}
}
< /code>
Как видите, я транспонировал векторы позже в функции. Я сделал это, поскольку данные не подготовлены к началу, но все равно должно быть быстрее, согласно книге.
Не векторная функция выглядит следующим образом: < /p>
/*
* Given two arrays of four elements vectors, calculate their dot product
*/
void DotArrays_ref(int count,
float r[],
const float a[],
const float b[])
{
for (int i = 0; i < count; ++i)
{
const int j = i * 4;
r[i] = a[j + 0] * b[j + 0]
+ a[j + 1] * b[j + 1]
+ a[j + 2] * b[j + 2]
+ a[j + 3] * b[j + 3];
}
}
< /code>
Я только добавлю, что эти функции выглядят точно так же, как предложенные автором, и я считаю, что вернуть, что это не быстрее. Мне пришлось пропустить некоторые детали, хотя я не вижу ее. Я попытался отключить оптимизацию, и это не помогло. < /P>
Наконец, я хочу показать, как я выполняю функции: < /p>
//int c = 10240 * 10240;
int c = 512 * 512;
begin = std::chrono::steady_clock::now();
DotArrays_sse_transpose(c, results, dataA, dataB);
std::cout
Подробнее здесь: [url]https://stackoverflow.com/questions/79467749/vectorized-function-slower-than-reference-when-compiled-without-optimization-mu[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия