我对 Cuda 很陌生,我已经阅读了书籍中的几章并在线阅读了很多教程。我已经对向量加法和乘法进行了自己的实现。
我想更进一步,假设我们要实现一个函数,该函数将一个排序的整数数组作为输入。
我们的目标是找到数组中每个整数的频率。
我们可以依次扫描数组一次以产生输出。时间复杂度为O(n)
。
由于组不同,我想一定可以利用 CUDA。
假设这是数组
1
1
1
1
2
2
3
3
5
5
6
7
为了实现完全并行,每个线程必须准确地知道它必须扫描数组的哪一部分才能找到总和。这只有在我们使用另一个名为的数组时才能实现,该数组int dataPosPerThread[]
对于每个线程 iddataPosPerThread[threadId]
将具有初始数组上的起始位置作为值。所以,这意味着每个线程都知道从哪里开始和在哪里结束。
然而,这样我们不会得到任何东西,因为我们需要O(n)
时间才能找到位置。最终总成本将是线程O(n) + cost_to_transfer_the_data_to_the_gpu + O(c) + cost_to_transfer_the_results_to_the_gpu
找到O(c)
最终输出所需的恒定时间,当然假设我们在初始数组中有许多不同的整数。
我想避免额外的O(n)
费用。
到目前为止我的想法是,拥有一个 size 数组arraySize
,我们指定将使用的线程总数,假设totalAmountOfThreads
这意味着每个线程都必须扫描totalAmountOfThreads/arraySize
值。
第一个线程(id 0)将从位置 0 开始扫描直到位置totalAmountOfThreads/arraySize
。
第二个线程将从totalAmountOfThreads/arraySize + 1
等等开始。
问题在于,尽管某些线程可能正在使用不同的整数组,或者使用具有更多值的组正在被其他线程处理。例如在上面的例子中,如果我们假设我们将有 6 个线程,每个线程将获取数组的 2 个整数,所以我们将有这样的东西:
1 <-------- thread 0
1
1 <-------- thread 1
1
2 <-------- thread 2
2
3 <-------- thread 3
3
5 <-------- thread 4
5
6 <-------- thread 5
7
如您所见,线程 0 只有1
值,但是1
线程 2 正在处理其他值。为了实现并行性,这些线程必须处理不相关的数据。假设我们将使用此逻辑,每个线程将计算以下结果:
thread 0 => {value=1, total=2}
thread 1 => {value=1, total=2}
thread 2 => {value=2, total=2}
thread 3 => {value=3, total=2}
thread 4 => {value=5, total=2}
thread 5 => {{value=6, total=1}, {value=7, total=1}}
有了这个结果,可以进一步实现什么?有人可能会建议使用额外的 hash_map,就像unordered_map
它可以有效地为单个线程计算的每个值更新总变量。然而
Unordered_map
cuda 编译器不支持这意味着线程将无法利用共享内存,因为来自不同块的两个线程可能使用相同的值,因此哈希映射必须位于全局内存中。
即使上述两个没有问题,在更新哈希映射时,我们仍然会在线程之间出现竞争条件。
解决这个问题的好方法是什么?
先感谢您