0

我正在尝试在 cuda 中进行矩阵乘法。我的实现与 cuda 示例不同。

cuda 示例(来自 cuda 样本)通过将第一个矩阵的行中的每个值乘以第二个矩阵的列中的每个值来执行矩阵乘法,然后将乘积相加并将其存储在输出向量中的索引处来自第一个矩阵的行。

我的实现将第一个矩阵的列中的每个值乘以第二个矩阵的行的单个值,其中行索引 = 列索引。然后它在全局内存中有一个输出向量,它的每个索引都更新了。

cuda 示例实现可以有一个线程更新输出向量中的每个索引,而我的实现可以有多个线程更新每个索引。

我得到的结果只显示了一些值。例如,如果我让它执行 4 次更新迭代,它只会执行 2 或 1 次。

我认为线程可能会相互干扰,因为它们都试图写入全局内存中向量的相同索引。所以也许,当一个线程正在写入索引时,另一个可能无法插入它的值并更新索引?

只是想知道这个评估是否有意义。

例如。将以下两个矩阵相乘:

[3 0 0 2         [1       [a
 3 0 0 2    x     2   =    b
 3 0 0 0          3        c
 0 1 1 0]         4]       d]

Cuda 示例使用 4 个线程以下列方式进行矩阵乘法,其中 a、b、c、d 存储在全局内存中:

Thread 0:   3*1 + 0*2 + 0*3 + 2*4 = a
Thread 1:   3*1 + 0*2 + 0*3 + 2*4 = b
Thread 2:   3*1 + 0*2 + 0*3 + 0*4 = c
Thread 3:   0*1 + 1*2 + 1*3 + 0*4 = d

我的实现如下所示:

a = b = c = d = 0

Thread 0:
3*1 += a
3*1 += b
3*1 += c
0*1 += d

Thread 1:
0*2 += a
0*2 += b
0*2 += c
1*2 += d

Thread 2:
0*3 += a
0*3 += b
0*3 += c
1*3 += d

Thread 3:
2*4 += a
2*4 += b
0*4 += c
0*4 += d

因此,所有四个线程都可能同时尝试更新其中一个索引。

4

1 回答 1

1

为了解决这个问题,我使用atomicAdd来执行+=操作。当一个线程执行3*1 += a的操作(例如)时,它做了三件事。

  1. 它获取a的先前值
  2. 它通过执行3*1 + a 的先前值来更新值
  3. 然后它将新值存储

通过使用atomicAdd,它保证这些操作可以由线程进行,而不会被其他线程中断。如果不使用 atomicAdd,thread0 可以获取 a 的先前值,thread0正在更新该值,thread1 可以获取a的先前值并执行自己的更新。这样,+=操作就不会发生,因为线程无法完成它们的操作。

如果使用 a += 3*1而不是atomicAdd(&a, 3*1),那么 thread1 可能会在 thread0 完成它正在做的事情之前干扰和更改 thread0 的值。它创造了一个竞争条件。

atomicAdd是一个+=操作。您将使用以下代码来执行操作:

__global__ void kernel(){    
int a = 0;   
atomicAdd(&a, 3*1);  //is the same as a += 3*1
}
于 2012-12-28T14:49:20.143 回答