Несовпадение в двумерной функции CUDA-FFTShift

Несовпадение в двумерной функции CUDA-FFTShift ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Несовпадение в двумерной функции CUDA-FFTShift

Цитата

Сообщение Anonymous » 17 дек 2024, 04:14

Я новичок в программировании CUDA, и мне нужно выполнить операцию сдвига fft над плоским двумерным массивом. Я немного поискал и наткнулся на эту библиотеку, но до сих пор не смог заставить ее работать даже после многочисленных попыток. Вывод:

Как-то неправильно выровнен.
"Поврежден", вероятно, из-за того, что потоки мешают друг другу.

Я решил написать локальную 2D-функцию ffshift на Python, и там она работает отлично. Я не могу понять, что я делаю не так в версии CUDA. В целом я не эксперт по функции fftshift, но тот факт, что эта версия работает на Python, меня сбивает с толку.

Код: Выделить всё

template 
__global__ void cufftShift_2D_kernel(T* array, int N)
{
int x = blockIdx.x * blockDim.x + threadIdx.x;
int y = blockIdx.y * blockDim.y + threadIdx.y;

int index = y * N + x;

int offsetA = (N * N + N) / 2;
int offsetB = (N * N - N) / 2;

T temp;

if (x < N / 2) {
if (y < N / 2) {
temp = array[index];
array[index] = array[index + offsetA];
array[index + offsetA] = temp;
}
}
else if (y < N / 2) {
temp = array[index];
array[index] = array[index + offsetB];
array[index + offsetB] = temp;
}
}

template 
struct GPUBuffer {
thrust::device_vector buffer;
T* p;
std::size_t mem_size;

GPUBuffer() = delete;

GPUBuffer(std::size_t size) :
buffer(thrust::device_vector(size)),
p(thrust::raw_pointer_cast(buffer.data())),
mem_size(buffer.size() * sizeof(T)) {}
};

__global__ void multiplyBuffers(cufftComplex *kernel, cufftComplex *field, int size) {
int idx = blockIdx.x * blockDim.x + threadIdx.x;

if (idx < size) {
cufftComplex x = kernel[idx];
cufftComplex y = field[idx];

field[idx].x = x.x * y.x - x.y * y.y;
field[idx].y = x.x * y.y + x.y * y.x;
}
}

int main()
{
const int field_size = 32 * scale;

std::vector field = std::vector(field_size * field_size, 0.f);

const int threadsPerBlock = 256;
const int blocksPerGrid = (field.size() + threadsPerBlock - 1) / threadsPerBlock;

cufftHandle normal, inv;

cufftPlan2d(&normal, field_size, field_size, CUFFT_C2C);
cufftPlan2d(&inv, field_size, field_size, CUFFT_C2C);

GPUBuffer kernel_gpu(field.size());
GPUBuffer field_gpu(field.size());
GPUBuffer shift_gpu(field.size());

std::vector host_output(field.size());

std::vector real_output(field.size());

for (size_t i = 0; i < field.size(); i++)
{
field_gpu.buffer[i] = { static_cast(i), 0.f };
kernel_gpu.buffer[i] = { static_cast(i), 0.f };
}

cufftExecC2C(normal, kernel_gpu.p, kernel_gpu.p, CUFFT_FORWARD);

for (int i = 0; i < 1; ++i) {
cufftExecC2C(normal, field_gpu.p, field_gpu.p, CUFFT_FORWARD);
multiplyBuffers(kernel_gpu.p, field_gpu.p, field.size());
cufftExecC2C(inv, field_gpu.p, field_gpu.p, CUFFT_INVERSE);
cudaMemcpy(shift_gpu.p, field_gpu.p, field_gpu.mem_size, cudaMemcpyDeviceToDevice);
cufftShift_2D_kernel(shift_gpu.p, field_size);
}

cudaMemcpy(host_output.data(), field_gpu.p, field_gpu.mem_size, cudaMemcpyDeviceToHost);

for (size_t i = 0; i < field.size(); ++i) {
real_output[i] = sqrt(host_output[i].x * host_output[i].x + host_output[i].y * host_output[i].y);
}

dump_array_to_file(real_output, field_size, field_size, "cuda_inv.txt");

cudaMemcpy(host_output.data(), shift_gpu.p, shift_gpu.mem_size, cudaMemcpyDeviceToHost);

for (size_t i = 0; i < field.size(); ++i) {
real_output[i] = sqrt(host_output[i].x * host_output[i].x + host_output[i].y * host_output[i].y);
}

dump_array_to_file(real_output, field_size, field_size, "cuda_shifted.txt");

cufftDestroy(normal);
cufftDestroy(inv);
return 0;
}

Вот эквивалентная версия Python, которая выдает правильный результат:

Код: Выделить всё

def shift(array: NDArray):
N = np.int32(np.sqrt(array.size))
offsetA = (N * N + N) // 2
offsetB = (N * N - N) // 2
for (y, x), _ in np.ndenumerate(array.reshape((N, N))):
idx = y * N + x
if x < N // 2:
if y < N // 2:
array[idx], array[idx + offsetA] = array[idx + offsetA], array[idx]
else:
if y <  N // 2:
array[idx], array[idx + offsetB] = array[idx + offsetB], array[idx]
return array.reshape((N, N))

И как это выглядит:

Подробнее здесь: https://stackoverflow.com/questions/792 ... t-function

1734398085

Anonymous

Я новичок в программировании CUDA, и мне нужно выполнить операцию сдвига fft над плоским двумерным массивом. Я немного поискал и наткнулся на эту библиотеку, но до сих пор не смог заставить ее работать даже после многочисленных попыток. Вывод:
[list]
[*]Как-то неправильно выровнен.
[*]"Поврежден", вероятно, из-за того, что потоки мешают друг другу.
[/list]
Я решил написать локальную 2D-функцию ffshift на Python, и там она работает отлично. Я не могу понять, что я делаю не так в версии CUDA.  В целом я не эксперт по функции fftshift, но тот факт, что эта версия работает на Python, меня сбивает с толку.
[code]template 
__global__ void cufftShift_2D_kernel(T* array, int N)
{
int x = blockIdx.x * blockDim.x + threadIdx.x;
int y = blockIdx.y * blockDim.y + threadIdx.y;

int index = y * N + x;

int offsetA = (N * N + N) / 2;
int offsetB = (N * N - N) / 2;

T temp;

if (x < N / 2) {
if (y < N / 2) {
temp = array[index];
array[index] = array[index + offsetA];
array[index + offsetA] = temp;
}
}
else if (y < N / 2) {
temp = array[index];
array[index] = array[index + offsetB];
array[index + offsetB] = temp;
}
}

template 
struct GPUBuffer {
thrust::device_vector buffer;
T* p;
std::size_t mem_size;

GPUBuffer() = delete;

GPUBuffer(std::size_t size) :
buffer(thrust::device_vector(size)),
p(thrust::raw_pointer_cast(buffer.data())),
mem_size(buffer.size() * sizeof(T)) {}
};

__global__ void multiplyBuffers(cufftComplex *kernel, cufftComplex *field, int size) {
int idx = blockIdx.x * blockDim.x + threadIdx.x;

if (idx < size) {
cufftComplex x = kernel[idx];
cufftComplex y = field[idx];

field[idx].x = x.x * y.x - x.y * y.y;
field[idx].y = x.x * y.y + x.y * y.x;
}
}

int main()
{
const int field_size = 32 * scale;

std::vector field = std::vector(field_size * field_size, 0.f);

const int threadsPerBlock = 256;
const int blocksPerGrid = (field.size() + threadsPerBlock - 1) / threadsPerBlock;

cufftHandle normal, inv;

cufftPlan2d(&normal, field_size, field_size, CUFFT_C2C);
cufftPlan2d(&inv, field_size, field_size, CUFFT_C2C);

GPUBuffer kernel_gpu(field.size());
GPUBuffer field_gpu(field.size());
GPUBuffer shift_gpu(field.size());

std::vector host_output(field.size());

std::vector real_output(field.size());

for (size_t i = 0; i < field.size(); i++)
{
field_gpu.buffer[i] = { static_cast(i), 0.f };
kernel_gpu.buffer[i] = { static_cast(i), 0.f };
}

cufftExecC2C(normal, kernel_gpu.p, kernel_gpu.p, CUFFT_FORWARD);

for (int i = 0; i < 1; ++i) {
cufftExecC2C(normal, field_gpu.p, field_gpu.p, CUFFT_FORWARD);
multiplyBuffers(kernel_gpu.p, field_gpu.p, field.size());
cufftExecC2C(inv, field_gpu.p, field_gpu.p, CUFFT_INVERSE);
cudaMemcpy(shift_gpu.p, field_gpu.p, field_gpu.mem_size, cudaMemcpyDeviceToDevice);
cufftShift_2D_kernel(shift_gpu.p, field_size);
}

cudaMemcpy(host_output.data(), field_gpu.p, field_gpu.mem_size, cudaMemcpyDeviceToHost);

for (size_t i = 0; i < field.size(); ++i) {
real_output[i] = sqrt(host_output[i].x * host_output[i].x + host_output[i].y * host_output[i].y);
}

dump_array_to_file(real_output, field_size, field_size, "cuda_inv.txt");

cudaMemcpy(host_output.data(), shift_gpu.p, shift_gpu.mem_size, cudaMemcpyDeviceToHost);

for (size_t i = 0; i < field.size(); ++i) {
real_output[i] = sqrt(host_output[i].x * host_output[i].x + host_output[i].y * host_output[i].y);
}

dump_array_to_file(real_output, field_size, field_size, "cuda_shifted.txt");

cufftDestroy(normal);
cufftDestroy(inv);
return 0;
}
[/code]
Вот эквивалентная версия Python, которая выдает правильный результат:
[code]def shift(array: NDArray):
N = np.int32(np.sqrt(array.size))
offsetA = (N * N + N) // 2
offsetB = (N * N - N) // 2
for (y, x), _ in np.ndenumerate(array.reshape((N, N))):
idx = y * N + x
if x < N // 2:
if y < N // 2:
array[idx], array[idx + offsetA] = array[idx + offsetA], array[idx]
else:
if y <  N // 2:
array[idx], array[idx + offsetB] = array[idx + offsetB], array[idx]
return array.reshape((N, N))
[/code]
И как это выглядит: 
[img]https://i.sstatic.net/Bu32cwzu.png[/img]

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79286453/misalignment-in-2-dimensional-cuda-fftshift-function[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Несовпадение в двумерной функции CUDA-FFTShift

Последнее сообщение Anonymous « 17 дек 2024, 04:14
Добавлено в форуме C++

Anonymous » 17 дек 2024, 04:14 » в форуме C++

Я новичок в программировании CUDA, и мне нужно выполнить операцию сдвига fft над плоским двумерным массивом. Я немного поискал и наткнулся на эту библиотеку, но до сих пор не смог заставить ее работать даже после многочисленных попыток. Вывод:...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 04:14
RuntimeError: ошибка времени выполнения cuda (35): версия драйвера CUDA недостаточна для версии среды выполнения CUDA в

Последнее сообщение Anonymous « 03 ноя 2024, 19:04
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 19:04 » в форуме Python

Когда я пытаюсь загрузить контрольную точку pytorch:

checkpoint = torch.load(pathname)

Я вижу:

RuntimeError: ошибка выполнения cuda (35): CUDA версия драйвера недостаточна для версии среды выполнения CUDA по адресу...

0 Ответы

78 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 19:04
CUDA ON DEBIAN TRIXIE: версия драйвера CUDA недостаточно для версии времени выполнения CUDA

Последнее сообщение Anonymous « 20 авг 2025, 18:06
Добавлено в форуме Linux

Anonymous » 20 авг 2025, 18:06 » в форуме Linux

У меня есть nvidia-driver-580 и cuda-tools-13 , установленные на Debian Trixie (оба являются самой новой версией, которую я мог найти): $ a p t l i s t - - i n s t a l l e d | a g n v i d i a f i r m w a r e - n v i d i a - g s p / u n k n o w n , n...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 18:06
Fftshift или convolve из модуля NumPy некорректно работают

Последнее сообщение Anonymous « 27 сен 2024, 18:16
Добавлено в форуме Python

Anonymous » 27 сен 2024, 18:16 » в форуме Python

Я пытаюсь показать в Python эквивалентность умножения двух сигналов во временной области и их свертки в частотной области.
Благодаря Baddioes в этом посте, это было показано, что такую эквивалентность можно показать с помощью функции fftshift, но...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 18:16
Fftshift или convolve из модуля NumPy некорректно работают

Последнее сообщение Anonymous « 27 сен 2024, 19:32
Добавлено в форуме Python

Anonymous » 27 сен 2024, 19:32 » в форуме Python

Я пытаюсь показать в Python эквивалентность умножения двух сигналов во временной области и их свертки в частотной области.
Благодаря Baddioes в этом посте, это было показано, что такую эквивалентность можно показать с помощью функции fftshift, но...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 19:32

Вернуться в «Python»