Существует ли какая -либо разница в точности или производительности между нормальными SQRTPS/PD или версией SVML:
Код: Выделить всё
__m128d _mm_sqrt_pd (__m128d a) [SSE2]
__m128d _mm_svml_sqrt_pd (__m128d a) [SSE?]
< /code>
__m128 _mm_sqrt_ps (__m128 a) [SSE]
__m128 _mm_svml_sqrt_ps (__m128 a) [SSE?]
< /code>
I know that SVML Intrinsics like _mm_sin_ps
на самом деле являются функциями, состоящими из потенциально множественных инструкций ASM, поэтому они должны быть медленнее, чем любое единственное умножение или даже разделение. Тем не менее, мне любопытно, почему эти функции существуют, если имеется внутренняя внутренняя часть аппаратного уровня. Или есть разница в точности?
Подробнее здесь:
https://stackoverflow.com/questions/693 ... -functions