ARM NEON: как реализовать логику типа mm_mask_compress? - Цифровое Кемерово

ARM NEON: как реализовать логику типа mm_mask_compress? ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

ARM NEON: как реализовать логику типа mm_mask_compress?

Сообщение Anonymous » 16 апр 2024, 10:48

Функция с именем filter_range предназначена для сохранения элементов nums, для которых filter != 0, и удаления всех остальных. Его логика следующая.

Код: Выделить всё

static size_t filter_range(int* nums, const uint8_t* filter, size_t size) {
size_t result_offset = 0;
for (auto i = 0; i < size; i++) {
if (filter[i]) {
*(nums + result_offset) = *(nums + i);
result_offset++;
}
}
return result_offset;
}

Для AVX512 от AMD можно удобно использовать инструкцию _mm512_mask_compress_epi для достижения этой функциональности. Можно ли использовать инструкции SIMD для ARM NEON для максимального ускорения этой функции?

Подробнее здесь: https://stackoverflow.com/questions/783 ... k-compress

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «C++»