0

我正在努力将搜索模式与 CUDA 中的自动机并行化。

因此,每个线程将使用不同的“单词”来查看它是否被自动机接受。

当某些线程比其他线程先结束时,我想知道在考虑经线发散时是否有任何问题。

假设线程 1 使用单词 1,线程 2 使用单词 2(依此类推,直到 32)...

如果偶数线程(只是一个假设)先完成工作,奇数线程继续运行,它对扭曲发散或任何其他效率问题有很大影响吗?还是不影响效率?

4

1 回答 1

2

是的,翘曲发散会影响效率。

但是,经线发散并不是您必须不惜一切代价避免的某种问题。许多许多 CUDA 代码都经历了某种程度的扭曲发散。

特定算法导致翘曲发散的事实不一定是不尝试它的理由。

如果您正在优化算法并且发现翘曲发散是一个普遍存在的问题(例如,使用视觉分析器),那么您可能会尝试想办法减少它。但是你的代码的最终衡量标准是它的整体性能,而不是它的扭曲发散程度。只有减少翘曲发散才能提高性能,这才是有价值的。

如果您有另一种不会导致分歧的替代算法,并且正在对所有线程和机器周期进行有用的工作,那么它可能会更快。但是,除非您已经考虑到该算法,否则这一点是没有意义的。大概你必须实现一些东西,对吧?

没有人可以从您的描述中看出多少扭曲发散会影响您的代码。这取决于偶数线程完成工作的时间(因此是空闲的)。即便如此,只有当你知道一种更好的方法来制作它而不会产生分歧时,这才有意义。

差异只是代码中可能需要改进的区域的一个指标。

如果您知道数据中可以预测线程执行时间的模式,那么您可能会尝试重新组织数据以将具有相似处理时间的元素组合在一起。这将倾向于最大限度地减少分歧对效率的影响。我认为一些 GPU 排序代码可以做到这一点。在您的情况下,如果您可以重新排列数据以将偶数元素组合在一起(如果它们导致“更短”的线程),您可以利用类似的技术来减少分歧对效率的影响。当然,在存在翘曲分歧的情况下,重组数据的时间成本可能超过提高效率的时间收益。

于 2013-10-21T17:58:58.083 回答