для 32 8-битных элементов и AVX, AVX2 можно сделать так:
src = (1,2,3,...,63, 64),
mask = ( 0, 0, ...,255,...,0,0) (нужно, так как мы потеряли 1 элемент),
Код: Выделить всё
a = _mm256_sli_si256(src, 1);
src = _mm256_and_si256(src, mask);
src = _mm256_permute2f128_si256(src, src, 1);
src = _mm256_srli_si256(src, 15);
src = _mm256_add_epi16(a, src);
Подробнее здесь: https://stackoverflow.com/questions/783 ... -in-avx512