所以这就是问题所在。++ 运算符实际上是三个操作合二为一:读取当前值,递增它,写入新值。在 Aparapi 中,您可能有 1024 个 GPU 线程同时运行。这意味着他们将读取该值,可能在值为 0 的同时读取,然后将其递增到 1,然后所有 1024 个线程将写入 1。所以它按预期运行。
您正在尝试做的事情称为 Map-reduce 函数。你只是跳过了很多步骤。你需要记住 Aparapi 是一个没有线程安全的系统,所以你必须编写你的算法来适应它。这就是 Map-reduce 的用武之地,这里是如何做的。我刚刚编写了它并将其添加到其新家的 Aparapi 存储库中,详细信息如下。
int size = 1024;
final int count = 3;
final int[] V = new int[size];
//lets fill in V randomly...
for (int i = 0; i < size; i++) {
//random number either 0, 1, or 2
V[i] = (int) (Math.random() * 3);
}
//this will hold our values between the phases.
int[][] totals = new int[count][size];
///////////////
// MAP PHASE //
///////////////
final int[][] kernelTotals = totals;
Kernel mapKernel = new Kernel() {
@Override
public void run() {
int gid = getGlobalId();
int value = V[gid];
for(int index = 0; index < count; index++) {
if (value == index)
kernelTotals[index][gid] = 1;
}
}
};
mapKernel.execute(Range.create(size));
mapKernel.dispose();
totals = kernelTotals;
//////////////////
// REDUCE PHASE //
//////////////////
while (size > 1) {
int nextSize = size / 2;
final int[][] currentTotals = totals;
final int[][] nextTotals = new int[count][nextSize];
Kernel reduceKernel = new Kernel() {
@Override
public void run() {
int gid = getGlobalId();
for(int index = 0; index < count; index++) {
nextTotals[index][gid] = currentTotals[index][gid * 2] + currentTotals[index][gid * 2 + 1];
}
}
};
reduceKernel.execute(Range.create(nextSize));
reduceKernel.dispose();
totals = nextTotals;
size = nextSize;
}
assert size == 1;
/////////////////////////////
// Done, just print it out //
/////////////////////////////
int[] results = new int[3];
results[0] = totals[0][0];
results[1] = totals[1][0];
results[2] = totals[2][0];
System.out.println(Arrays.toString(results));
请记住,虽然它可能看起来效率低下,但它实际上在更大的数字上效果很好。该算法适用于
size = 1048576.
使用新的大小,我的系统上大约一秒钟就可以计算出以下结果。
[349602, 349698, 349276]
最后一点,您可能需要考虑转移到aparapi.com上更活跃的项目。它包括对错误的几个修复以及与您上面链接的旧库相比的许多额外功能和性能增强。它也在 Maven 中心,有大约十几个版本。所以更容易使用。我刚刚在这个答案中编写了代码,但决定在新的 Aparapi 存储库的示例部分中使用它,您可以在新的 Aparapi 存储库中的以下链接中找到它。