Как эффективно загружать и хранить данные для новых инструкций AVX-VNNI и Arm Neon MMLA? - Цифровое Кемерово

Как эффективно загружать и хранить данные для новых инструкций AVX-VNNI и Arm Neon MMLA? ⇐ C++

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно загружать и хранить данные для новых инструкций AVX-VNNI и Arm Neon MMLA?

Цитата

Сообщение Anonymous » 05 янв 2025, 19:52

Каков правильный способ загрузки данных для последних инструкций AVX-VNNI и Arm Neon MMLA?
Например, описание SMMLA:

8-битная целочисленная матрица со знаком, умножение-накопление. Эта инструкция умножает матрицу 2x8 8-битных целых чисел со знаком в первом исходном векторе на матрицу 8x2 8-битных целых чисел со знаком во втором исходном векторе. Полученная 32-битная целочисленная матрица размером 2x2 [...]

Аналогично, описание для _mm256_dpbusd_epi32:

Умножить группы из 4 соседних пар беззнаковых 8-битных целых чисел в a на соответствующие 8-битные целые числа со знаком в b, получив 4 промежуточных знаковых числа. 16-битные результаты. Суммируйте эти 4 результата с соответствующим 32-битным целым числом в src и сохраните упакованные 32-битные результаты в dst.

Похоже, что все они требуют входы вида 2[4]x8 и 8x[4]2. и выдать выходные данные в форме 2[4]x[4]2. Как я могу эффективно загружать и хранить данные для этих функций?
Я вижу три широкие возможности использования этих инструкций, ни одна из которых не является привлекательной:

[Разделение и объединение] Я загружаю два последовательных 128-битных вектора, а затем разделяю их. Аналогично, для AVX я бы загрузил 4 128 или 256 векторов, а затем разделил их. Хранение также «сложно», поскольку мне нужно извлечь соответствующие части матрицы 2[4]x[4]2 перед ее сохранением. Мой код перегружен инструкциями по разделению/объединению.
[Меньшие векторы] Альтернативно я мог бы загружать меньшие части, но это тоже кажется неэффективным.
[Изменение порядка входных данных] Конечно, я мог бы изменить порядок входных данных так, чтобы векторизованные нагрузки уже охватывали несколько строк или столбцов. Должно ли это быть предполагаемое использование?

Пример кода для внутреннего цикла (сокращение по K) небольшой входной матрицы A размером 4xK (основной по строкам) и матрица B Kx4 (основной столбец) выглядит следующим образом:

Код: Выделить всё

for (size_t k = 0; k < 64; k += 8) {
uint8x8_t low = vld1_u8(row0);
uint8x8_t high = vld1_u8(row1);
uint8x16_t row01x01234567 = vcombine_u8(low, high);
row0 += 8;
row1 += 8;
low = vld1_u8(row2);
high = vld1_u8(row3);
uint8x16_t row23x01234567 = vcombine_u8(low, high);
row2 += 8;
row3 += 8;
low = vld1_u8(col0);
high = vld1_u8(col1);
uint8x16_t col01x01234567 = vcombine_u8(low, high);
col0 += 8;
col1 += 8;
low = vld1_u8(col2);
high = vld1_u8(col3);
uint8x16_t col23x01234567 = vcombine_u8(low, high);
col2 += 8;
col3 += 8;
out01x01 = vmmlaq_u32(out01x01, row01x01234567, col01x01234567);
out01x23 = vmmlaq_u32(out01x23, row01x01234567, col23x01234567);

out23x01 = vmmlaq_u32(out23x01, row23x01234567, col01x01234567);
out23x23 = vmmlaq_u32(out23x23, row23x01234567, col23x01234567);
}

Результат правильный, но кажется ужасно неэффективным. Код выше — это всего лишь пример. На самом деле я бы использовал плитки большего размера, чтобы максимально использовать регистр.

Подробнее здесь: https://stackoverflow.com/questions/792 ... ructions-e

Реклама

1736095932

Anonymous

Каков правильный способ загрузки данных для последних инструкций AVX-VNNI и Arm Neon MMLA?
Например, описание SMMLA:

8-битная целочисленная матрица со знаком, умножение-накопление. Эта инструкция умножает матрицу 2x8 8-битных целых чисел со знаком в первом исходном векторе на матрицу 8x2 8-битных целых чисел со знаком во втором исходном векторе. Полученная 32-битная целочисленная матрица размером 2x2 [...]

Аналогично, описание для _mm256_dpbusd_epi32:

Умножить группы из 4 соседних пар беззнаковых 8-битных целых чисел в a на соответствующие 8-битные целые числа со знаком в b, получив 4 промежуточных знаковых числа. 16-битные результаты. Суммируйте эти 4 результата с соответствующим 32-битным целым числом в src и сохраните упакованные 32-битные результаты в dst.

Похоже, что все они требуют входы вида 2[4]x8 и 8x[4]2. и выдать выходные данные в форме 2[4]x[4]2. Как я могу эффективно загружать и хранить данные для этих функций?
Я вижу три широкие возможности использования этих инструкций, ни одна из которых не является привлекательной:
[list]
[*][Разделение и объединение] Я загружаю два последовательных 128-битных вектора, а затем разделяю их. Аналогично, для AVX я бы загрузил 4 128 или 256 векторов, а затем разделил их. Хранение также «сложно», поскольку мне нужно извлечь соответствующие части матрицы 2[4]x[4]2 перед ее сохранением. Мой код перегружен инструкциями по разделению/объединению.
[*][Меньшие векторы] Альтернативно я мог бы загружать меньшие части, но это тоже кажется неэффективным.
[*] [Изменение порядка входных данных] Конечно, я мог бы изменить порядок входных данных так, чтобы векторизованные нагрузки уже охватывали несколько строк или столбцов. Должно ли это быть предполагаемое использование?
[/list]
Пример кода для внутреннего цикла (сокращение по K) небольшой входной матрицы A размером 4xK (основной по строкам) и матрица B Kx4 (основной столбец) выглядит следующим образом:
[code]for (size_t k = 0; k < 64; k += 8) {
uint8x8_t low = vld1_u8(row0);
uint8x8_t high = vld1_u8(row1);
uint8x16_t row01x01234567 = vcombine_u8(low, high);
row0 += 8;
row1 += 8;
low = vld1_u8(row2);
high = vld1_u8(row3);
uint8x16_t row23x01234567 = vcombine_u8(low, high);
row2 += 8;
row3 += 8;
low = vld1_u8(col0);
high = vld1_u8(col1);
uint8x16_t col01x01234567 = vcombine_u8(low, high);
col0 += 8;
col1 += 8;
low = vld1_u8(col2);
high = vld1_u8(col3);
uint8x16_t col23x01234567 = vcombine_u8(low, high);
col2 += 8;
col3 += 8;
out01x01 = vmmlaq_u32(out01x01, row01x01234567, col01x01234567);
out01x23 = vmmlaq_u32(out01x23, row01x01234567, col23x01234567);

out23x01 = vmmlaq_u32(out23x01, row23x01234567, col01x01234567);
out23x23 = vmmlaq_u32(out23x23, row23x01234567, col23x01234567);
}

[/code]
Результат правильный, но кажется ужасно неэффективным. Код выше — это всего лишь пример. На самом деле я бы использовал плитки большего размера, чтобы максимально использовать регистр.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79284450/how-to-load-and-store-data-for-the-new-avx-vnni-and-arm-neon-mmla-instructions-e[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему GCC, ICX и Clang не выполняют автоматическую векторизацию с использованием инструкций на основе AVX-512 на процес

Последнее сообщение Anonymous « 10 ноя 2024, 14:58
Добавлено в форуме C++

Anonymous » 10 ноя 2024, 14:58 » в форуме C++

Мой код чрезвычайно прост
void x(float* array, float const LOW_THRESHOLD, float const HIGH_THRESHOLD) noexcept
{
for ( int index = 0; index < 16; ++index )
{
array = LOW_THRESHOLD < array && array < HIGH_THRESHOLD ? 1.0f : 0.0f;
}
}

Код выглядит...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 14:58
ARM NEON: как реализовать логику типа mm_mask_compress?

Последнее сообщение Anonymous « 16 апр 2024, 10:48
Добавлено в форуме C++

Anonymous » 16 апр 2024, 10:48 » в форуме C++

Функция с именем filter_range предназначена для сохранения элементов nums , для которых filter != 0, и удаления всех остальных. Его логика следующая.
static size_t filter_range(int* nums, const uint8_t* filter, size_t size) {
size_t result_offset =...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
16 апр 2024, 10:48
ARM NEON: как реализовать логику типа mm_mask_compress?

Последнее сообщение Anonymous « 16 апр 2024, 14:39
Добавлено в форуме C++

Anonymous » 16 апр 2024, 14:39 » в форуме C++

Функция с именем filter_range предназначена для сохранения элементов nums , для которых filter != 0, и удаления всех остальных. Его логика следующая.
static size_t filter_range(int* nums, const uint8_t* filter, size_t size) {
size_t result_offset =...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
16 апр 2024, 14:39
Почему встроенные функции ARM NEON не работают быстрее, чем простой C++, для поиска легальных ходов Отелло?

Последнее сообщение Anonymous « 11 окт 2024, 23:22
Добавлено в форуме C++

Anonymous » 11 окт 2024, 23:22 » в форуме C++

Я написал метод с помощью NEON для ускорения моего кода для игрового движка Othello.
Я ожидал ускорения от векторов SIMD, но не получил прироста скорости. нада :-(

Я запускаю это на M3 с Xcode 16, Clang/LLVM 16, с

-Ofast -fomit-frame-pointer...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 23:22
Ускорение умножения матрицы-вектора с помощью ARM Neon Intrinsics на Raspberry Pi 4

Последнее сообщение Anonymous « 08 янв 2025, 04:13
Добавлено в форуме C++

Anonymous » 08 янв 2025, 04:13 » в форуме C++

Мне нужно оптимизировать умножение матрицы на вектор. Данные выглядят следующим образом:

Вектор имеет 81 столбец.
Матрица имеет 90 000 строк и 81 столбец и уже транспонирована. . Таким образом, можно использовать скалярное произведение по...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 04:13

Вернуться в «C++»

Programmiererforum