我正在阅读一些结果。在那里我看到他们使用了 5120 个工作组和 1 的本地大小。我对 OpenCl 的了解有限,我想知道这个说法是否正确:
从 GPU 可以看出,第一个测试有 5120 个工作组,每个工作组有 1 个工作项。这意味着并行执行的线程受限于机器中的计算单元数量。例如,如果 GPU 有 20 个计算单元,则最多只能有 20 个并行工作的线程。虽然当本地大小增加到 2 时,同时运行的线程数量增加了一倍
从阅读有关 OpenCl 的一些信息来看,这似乎是正确的。虽然我需要第二个意见。