Модель памяти CUDA: зачем приобретать забор не требуется для предотвращения переупорядочения нагрузки нагрузку? - Цифровое Кемерово

Модель памяти CUDA: зачем приобретать забор не требуется для предотвращения переупорядочения нагрузки нагрузку? ⇐ C++

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Модель памяти CUDA: зачем приобретать забор не требуется для предотвращения переупорядочения нагрузки нагрузку?

Цитата

Сообщение Anonymous » 12 фев 2025, 14:17

Я читаю книгу «Программирование массовых параллельных процессоров» и заметил приведенные ниже фрагменты кода для достижения «Сканирования в стиле домино»: < /p>

Код: Выделить всё

if (threadIdx.x == 0) {
while(AtomicAdd(&flags[bid], 0) == 0) {}
// ???? why do I not need thread fence here (for acquire semantic) to prevent load-load reordering between the loads for flags[bid] and scan_value[bid]?
previous_sum = scan_value[bid];
scan_value[bid+1] = previous_sum + local_sum;
__threadfence(); // why the "release" fence here is sufficient?
atomicAdd(&flags[bid + 1], 1);
}

Согласно книге, между этими двумя записями требуется __threadfence () для обеспечения SCACN_VALUE [BID+1] записывается в глобальную память перед флагами [ Bid+1] увеличен, что, по -видимому, напоминает семантическую семантику в модели памяти C ++ (за исключением того, что __threadfence имеет семантику SEQ_CST).
Однако я не могу понять, почему Аналогичный __threadfence (или приобретать забор) не требуется между двумя чтениями, чтобы предотвратить переупорядочение нагрузки на загрузку (то есть scan_value [bid] , прочитав перед флагами [bid] )?

Подробнее здесь: https://stackoverflow.com/questions/794 ... d-reorderi

Реклама

1739359025

Anonymous

 Я читаю книгу «Программирование массовых параллельных процессоров» и заметил приведенные ниже фрагменты кода для достижения «Сканирования в стиле домино»: < /p>
[code]if (threadIdx.x == 0) {
while(AtomicAdd(&flags[bid], 0) == 0) {}
// ???? why do I not need thread fence here (for acquire semantic) to prevent load-load reordering between the loads for flags[bid] and scan_value[bid]?
previous_sum = scan_value[bid];
scan_value[bid+1] = previous_sum + local_sum;
__threadfence(); // why the "release" fence here is sufficient?
atomicAdd(&flags[bid + 1], 1);
}
[/code]
Согласно книге, между этими двумя записями требуется __threadfence ()  для обеспечения SCACN_VALUE [BID+1]  записывается в глобальную память перед флагами [ Bid+1]  увеличен, что, по -видимому, напоминает семантическую семантику в модели памяти C ++ (за исключением того, что __threadfence имеет семантику SEQ_CST). 
Однако я не могу понять, почему Аналогичный __threadfence  (или приобретать забор) не требуется между двумя чтениями, чтобы предотвратить переупорядочение нагрузки на загрузку (то есть scan_value [bid] , прочитав перед флагами [bid] )?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79429440/cuda-memory-model-why-acquire-fence-is-not-needed-to-prevent-load-load-reorderi[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Модель памяти CUDA: зачем приобретать забор не требуется для предотвращения переупорядочения нагрузки нагрузку?

Последнее сообщение Anonymous « 11 фев 2025, 12:16
Добавлено в форуме C++

Anonymous » 11 фев 2025, 12:16 » в форуме C++

Я читаю книгу «Программирование массовых параллельных процессоров» и заметил приведенные ниже фрагменты кода для достижения «Сканирования в стиле домино»:
if (threadIdx.x == 0) {
while(AtomicAdd(&flags , 0) == 0) {}
// ???? why do I not need...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
11 фев 2025, 12:16
Модель памяти CUDA: зачем приобретать забор не требуется для предотвращения переупорядочения нагрузки нагрузку?

Последнее сообщение Anonymous « 11 фев 2025, 23:51
Добавлено в форуме C++

Anonymous » 11 фев 2025, 23:51 » в форуме C++

Я читаю книгу «Программирование массовых параллельных процессоров» и заметил приведенные ниже фрагменты кода для достижения «Сканирования в стиле домино»:
if (threadIdx.x == 0) {
while(AtomicAdd(&flags , 0) == 0) {}
// ???? why do I not need...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
11 фев 2025, 23:51
Модель памяти CUDA: зачем приобретать забор не требуется для предотвращения переупорядочения нагрузки нагрузку?

Последнее сообщение Anonymous « 12 фев 2025, 15:13
Добавлено в форуме C++

Anonymous » 12 фев 2025, 15:13 » в форуме C++

Я читаю книгу «Программирование массовых параллельных процессоров» и заметил приведенные ниже фрагменты кода для достижения «Сканирования в стиле домино»:
if (threadIdx.x == 0) {
while(AtomicAdd(&flags , 0) == 0) {}
// ???? why do I not need...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 15:13
Проблема с порядком памяти атомарных переменных C++ не может воспроизвести пример переупорядочения LoadStore

Последнее сообщение Anonymous « 31 окт 2024, 09:48
Добавлено в форуме C++

Anonymous » 31 окт 2024, 09:48 » в форуме C++

все. Я написал демо-версию, чтобы воспроизвести проблемы, упомянутые в cppreference.
cppreference demo
Я обнаружил, что в некоторых документах и блогах говорится, что это может воспроизводиться не на чипах x86, а на чипах ARM, потому что Арка ARM...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 09:48
Почему этот забор памяти для приобретения и освобождения не дает постоянного значения?

Последнее сообщение Anonymous « 16 апр 2024, 08:09
Добавлено в форуме C++

Anonymous » 16 апр 2024, 08:09 » в форуме C++

Я только изучаю использование ограничений захвата и освобождения памяти и не понимаю, почему иногда я получаю на выходе значение равное нулю, а не значение 2 все время

Я запускал программу несколько раз и предполагал, что атомарное хранилище до...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
16 апр 2024, 08:09

Вернуться в «C++»

Programmiererforum