Как работают поток CUDA, DMA Engine и Async Engine и взаимодействуют друг с другом? - Цифровое Кемерово

Как работают поток CUDA, DMA Engine и Async Engine и взаимодействуют друг с другом? ⇐ C++

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как работают поток CUDA, DMA Engine и Async Engine и взаимодействуют друг с другом?

Цитата

Сообщение Anonymous » 25 июн 2025, 03:35

Я пытаюсь перекрывать передачу данных и выполнение ядра, используя CUDA C ++.
I создал массив, разделите его на 8 кусков, а затем назначьте каждый из чанков в соответствующий поток CUDA, используя следующее для цикла: < /p>

Код: Выделить всё

memset(a, 0, bytes);
for (int i = 0; i < nStreams; ++i) {
int offset = i * streamSize;
cudaMemcpyAsync(&d_a[offset], &a[offset],
streamBytes, cudaMemcpyHostToDevice,
stream[i]);
kernel(d_a, offset);
cudaMemcpyAsync(&a[offset], &d_a[offset],
streamBytes, cudaMemcpyDeviceToHost,
stream[i]);
}
< /code>
Поскольку мой графический процессор имеет только один асинхронный двигатель, теоретически, заказ передачи данных должен быть:
H2D[0] -> D2H[0] -> H2D[1] -> D2H[1] -> ...

Однако, используя систему NSIGHT для профилирования моей программы, результат подобен следующему:

Мы можем видеть, что второй h2 не заблокированным. Переводы идеально следуют теории. < /p>
Мне интересно, почему такой результат произойдет. Может ли кто -нибудь придумать значимое объяснение тому, что происходит под капюшоном? Спасибо большое!#include

__global__ void kernel(float *a, int offset)
{
int i = offset + threadIdx.x + blockIdx.x*blockDim.x;
float x = (float)i;
float s = sinf(x);
float c = cosf(x);
a = a + sqrtf(s*s+c*c);
}

int main(int argc, char **argv)
{
const int blockSize = 256, nStreams = 8;
const int n = 160 * 1024 * blockSize * nStreams;
const int streamSize = n / nStreams;
const int streamBytes = streamSize * sizeof(float);
const int bytes = n * sizeof(float);

int devId = 0;
if (argc > 1) devId = atoi(argv[1]);

cudaDeviceProp prop;
cudaGetDeviceProperties(&prop, devId);
printf("Device : %s\n", prop.name);
cudaSetDevice(devId);

// allocate pinned host memory and device memory
float *a, *d_a;
cudaMallocHost((void**)&a, bytes); // host pinned
cudaMalloc((void**)&d_a, bytes); // device

cudaStream_t stream[nStreams];
for (int i = 0; i < nStreams; ++i)
cudaStreamCreate(&stream);

// asynchronous version: loop over {copy, kernel, copy}
memset(a, 0, bytes);
for (int i = 0; i < nStreams; ++i) {
int offset = i * streamSize;
cudaMemcpyAsync(&d_a[offset], &a[offset],
streamBytes, cudaMemcpyHostToDevice,
stream);
kernel(d_a, offset);
cudaMemcpyAsync(&a[offset], &d_a[offset],
streamBytes, cudaMemcpyDeviceToHost,
stream);
}
// cleanup
for (int i = 0; i < nStreams; ++i)
cudaStreamDestroy(stream);
cudaFree(d_a);
cudaFreeHost(a);

return 0;
}
< /code>
Я попытался изменить размер куски данных, количество потоков CUDA. Результат сохраняется.>

Подробнее здесь: https://stackoverflow.com/questions/796 ... h-each-oth

Реклама

1750811754

Anonymous

 Я пытаюсь перекрывать передачу данных и выполнение ядра, используя CUDA C ++.
I создал массив, разделите его на 8 кусков, а затем назначьте каждый из чанков в соответствующий поток CUDA, используя следующее для цикла: < /p>
[code]memset(a, 0, bytes);
for (int i = 0; i < nStreams; ++i) {
int offset = i * streamSize;
cudaMemcpyAsync(&d_a[offset], &a[offset],
streamBytes, cudaMemcpyHostToDevice,
stream[i]);
kernel(d_a, offset);
cudaMemcpyAsync(&a[offset], &d_a[offset],
streamBytes, cudaMemcpyDeviceToHost,
stream[i]);
}
< /code>
Поскольку мой графический процессор имеет только один асинхронный двигатель, теоретически, заказ передачи данных должен быть:
H2D[0] -> D2H[0] -> H2D[1] -> D2H[1] -> ...[/code] 
Однако, используя систему NSIGHT для профилирования моей программы, результат подобен следующему:
 
Мы можем видеть, что второй h2 не заблокированным. Переводы идеально следуют теории. < /p>
Мне интересно, почему такой результат произойдет. Может ли кто -нибудь придумать значимое объяснение тому, что происходит под капюшоном? Спасибо большое!#include 

__global__ void kernel(float *a, int offset)
{
int i = offset + threadIdx.x + blockIdx.x*blockDim.x;
float x = (float)i;
float s = sinf(x);
float c = cosf(x);
a[i] = a[i] + sqrtf(s*s+c*c);
}

int main(int argc, char **argv)
{
const int blockSize = 256, nStreams = 8;
const int n = 160 * 1024 * blockSize * nStreams;
const int streamSize = n / nStreams;
const int streamBytes = streamSize * sizeof(float);
const int bytes = n * sizeof(float);

int devId = 0;
if (argc > 1) devId = atoi(argv[1]);

cudaDeviceProp prop;
cudaGetDeviceProperties(&prop, devId);
printf("Device : %s\n", prop.name);
cudaSetDevice(devId);

// allocate pinned host memory and device memory
float *a, *d_a;
cudaMallocHost((void**)&a, bytes);      // host pinned
cudaMalloc((void**)&d_a, bytes); // device

cudaStream_t stream[nStreams];
for (int i = 0; i < nStreams; ++i)
cudaStreamCreate(&stream[i]);

// asynchronous version: loop over {copy, kernel, copy}
memset(a, 0, bytes);
for (int i = 0; i < nStreams; ++i) {
int offset = i * streamSize;
cudaMemcpyAsync(&d_a[offset], &a[offset],
streamBytes, cudaMemcpyHostToDevice,
stream[i]);
kernel(d_a, offset);
cudaMemcpyAsync(&a[offset], &d_a[offset],
streamBytes, cudaMemcpyDeviceToHost,
stream[i]);
}
// cleanup
for (int i = 0; i < nStreams; ++i)
cudaStreamDestroy(stream[i]);
cudaFree(d_a);
cudaFreeHost(a);

return 0;
}
< /code>
Я попытался изменить размер куски данных, количество потоков CUDA. Результат сохраняется.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79675777/how-do-cuda-stream-dma-engine-and-async-engine-work-and-interact-with-each-oth[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как работают поток CUDA, DMA Engine и Async Engine и взаимодействуют друг с другом?

Последнее сообщение Anonymous « 23 июн 2025, 10:23
Добавлено в форуме C++

Anonymous » 23 июн 2025, 10:23 » в форуме C++

Я пытаюсь перекрывать передачу данных и выполнение ядра, используя CUDA C ++.
I создал массив, разделите его на 8 кусков, а затем назначьте каждый из чанков в соответствующий поток CUDA, используя следующее для цикла:
memset(a, 0, bytes);
for (int...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
23 июн 2025, 10:23
Как работают поток CUDA, DMA Engine и Async Engine и взаимодействуют друг с другом?

Последнее сообщение Anonymous « 23 июн 2025, 13:42
Добавлено в форуме C++

Anonymous » 23 июн 2025, 13:42 » в форуме C++

Я пытаюсь перекрывать передачу данных и выполнение ядра, используя CUDA C ++.
I создал массив, разделите его на 8 кусков, а затем назначьте каждый из чанков в соответствующий поток CUDA, используя следующее для цикла:
memset(a, 0, bytes);
for (int...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
23 июн 2025, 13:42
Как микросервисы взаимодействуют друг с другом или обмениваются данными в Spring Boot?

Последнее сообщение Anonymous « 07 дек 2023, 19:17
Добавлено в форуме JAVA

Anonymous » 07 дек 2023, 19:17 » в форуме JAVA

Я реализую свою систему микросервисов с помощью eureka и шлюза с весенней загрузкой Java.

В настоящее время у меня есть 2 сервиса: продукт и пользователь. В таблице продуктов в службе продуктов поле CreateBy — это идентификатор пользователя в...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
07 дек 2023, 19:17
Элементы моей карусели не взаимодействуют друг с другом должным образом.

Последнее сообщение Гость « 29 фев 2024, 08:10
Добавлено в форуме CSS

Гость » 29 фев 2024, 08:10 » в форуме CSS

Я использую загрузочную карусель, но ее элементы работают неправильно. Индикаторы не отображаются, а стрелки не перемещают карусель. Также возникают проблемы, когда я меняю анимацию со слайда на затухание. Я пробовал экспериментировать с источниками...

0 Ответы

28 Просмотры

Последнее сообщение Гость
29 фев 2024, 08:10
Как текущая очередь, очередь отправки и целевая очередь взаимодействуют друг с другом в GCD?

Последнее сообщение Anonymous « 11 апр 2024, 09:15
Добавлено в форуме IOS

Anonymous » 11 апр 2024, 09:15 » в форуме IOS

Я следил за блогами, онлайн-статьями, видео для GCD и наткнулся на очередь целевых терминов (в некоторых блогах). Я думал, что понял GCD, но потом эта терминология целевой очереди меня очень смутила.

Я понял следующее:

Например:

viewdidload(){...

0 Ответы

102 Просмотры

Последнее сообщение Anonymous
11 апр 2024, 09:15

Вернуться в «C++»

Programmiererforum