static size_t filter_range(int* nums, const uint8_t* filter, size_t size) {
size_t result_offset = 0;
for (auto i = 0; i < size; i++) {
if (filter[i]) {
*(nums + result_offset) = *(nums + i);
result_offset++;
}
}
return result_offset;
}
Для AVX512 от AMD можно удобно использовать инструкцию _mm512_mask_compress_epi для достижения этой функциональности. Можно ли использовать инструкции SIMD для ARM NEON для максимального ускорения этой функции?
Функция с именем filter_range предназначена для сохранения элементов nums[i], для которых filter[i] != 0, и удаления всех остальных. Его логика следующая. [code]static size_t filter_range(int* nums, const uint8_t* filter, size_t size) { size_t result_offset = 0; for (auto i = 0; i < size; i++) { if (filter[i]) { *(nums + result_offset) = *(nums + i); result_offset++; } } return result_offset; } [/code] Для AVX512 от AMD можно удобно использовать инструкцию _mm512_mask_compress_epi для достижения этой функциональности. Можно ли использовать инструкции SIMD для ARM NEON для максимального ускорения этой функции?