CUDA中的原子操作

CUDA原子操作

CUDA中的原子操作主要包括原子加（atomicAdd）、原子减（atomicSub）、原子与（atomicAnd）、原子或（atomicOr）、原子异或（atomicXor）、原子最小值（atomicMin）和原子最大值（atomicMax）等。

在CUDA中，原子操作是一种同步方法，用于在多个线程之间共享数据。原子操作具有原子性、独占性和排他性，可以确保多个线程对共享资源的并发访问不会同步出错。

原子操作用于对共享内存中的数据进行原子性读写操作，以避免多个线程同时访问同一个内存地址造成的数据竞争问题。在多个线程同时读写同一内存地址时，可能会发生数据不一致的情况。而原子操作可以将多个线程的访问序列化，确保最终结果是正确的。常用的CUDA原子操作有以下几种：

atomicAdd()：对共享内存中的变量进行原子性加法操作。
atomicSub()：对共享内存中的变量进行原子性减法操作。
atomicExch()：将共享内存中的变量与给定值进行交换，返回原始值。
atomicMin()：对共享内存中的变量与给定值进行比较，将较小的值写入共享内存中。
atomicMax()：对共享内存中的变量与给定值进行比较，将较大的值写入共享内存中。
atomicCAS()：比较共享内存中的变量与给定值，若相等则将共享内存中的变量替换为新值并返回原始值，否则返回当前共享内存中的变量值。

操作原理

它们的原理是通过硬件提供的原子指令来保证在多个线程同时操作同一个全局变量时可以正确完成，避免了数据竞争和不确定性结果的问题。具体来说，当一个线程执行原子操作时，它会在一个特定的时钟周期内尝试修改目标内存位置的值，如果成功，则返回原来的值；如果失败，则重新尝试，直到成功为止。
在CUDA的kernel函数中，原子操作实际上是通过硬件实现的，而不是软件。因此，原子操作的原理是通过硬件锁定内存地址，在同一时刻只允许一个线程访问，并确保操作的顺序是原子的。这可以保证在多个线程同时访问同一内存地址时不会发生竞争问题。

比如，在实现一个并行累加器时，使用原子操作可以避免多个线程同时写入同一内存地址的问题。以atomicAdd()为例，其具体实现原理如下：

读取共享内存中的变量原始值。
对原始值进行加法操作，得到新值。
若共享内存的值等于原始值，则将共享内存中的变量替换为新值，否则重新读取共享内存中的变量值进行操作。
返回原始值。

优势

原子操作的优势在于，它可以有效地避免数据竞争问题，同时也能够提高程序的并发性能。

代码示例1

在CUDA的kernel函数中，可以使用__atomic_前缀和相应的操作名称来实现原子操作。例如，使用atomicAdd实现原子加操作的代码示例如下：


__global__ void sum_kernel(int *sum, int *data, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    int stride = gridDim.x * blockDim.x;

    int local_sum = 0;
    for (int i = tid; i < n; i += stride) {
        atomicAdd(&local_sum, data[i]);
    }

    atomicAdd(sum, local_sum);
}

int main() {
    int n = 1000000;

    int *data, *sum;
    cudaMalloc(&data, n * sizeof(int));
    cudaMalloc(&sum, sizeof(int));

    cudaMemcpy(data, ...);

    int num_blocks = 128;
    int block_size = 256;
    sum_kernel<<<num_blocks, block_size>>>(sum, data, n);

    int result;
    cudaMemcpy(&result, sum, sizeof(int), cudaMemcpyDeviceToHost);

    printf("sum = %d\n", result);
}

在上述代码中，实现了一个并行求和的操作，使用了原子操作atomicAdd来确保多个线程对同一内存地址的访问顺序是正确的。

代码示例2

下面是简单的代码示例：

__global__ void atomic_add_kernel(int* data) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    atomicAdd(data, tid);
}

int main() {
    int size = 256;
    int* data;
    cudaMalloc(&data, size * sizeof(int));
    cudaMemset(data, 0, size * sizeof(int));

    atomic_add_kernel<<<1, size>>>(data);

    int result;
    cudaMemcpy(&result, data, sizeof(int), cudaMemcpyDeviceToHost);

    printf("Result: %d\n", result);
}

上述代码展示了如何使用原子加操作对一个数组中的所有元素求和。在kernel函数中，每个线程都会将自己的线程ID加到数组的第一个元素上，使用原子操作保证了多个线程同时修改该元素时不会出现问题。最终，将计算结果从设备内存传回到主机内存并打印出来。