问题标签 [thread-divergence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
93 浏览

c++ - 在发散的 CUDA 运行期间监视活动的经纱和线程

我实现了一些 CUDA 代码。它运行良好,但算法本质上会产生强烈的线程分歧。这是意料之中的。

稍后我将尝试减少分歧。但目前我很高兴能够测量它。

是否有一种简单的方法(最好使用运行时 API 调用或 CLI 工具)来检查我最初计划的扭曲和/或线程中有多少仍然处于活动状态?

0 投票
1 回答
33 浏览

cuda - 关于费米架构、翘曲和性能的问题

正如 fermi 白皮书所建议的那样,有 16 个 SM(流式多处理器),而每个 SM 由 32 个内核组成。gpu 执行一组 32 个线程中的一个线程,称为 warp。

第一个问题:我是否正确地假设,每个扭曲都可以被视为类似于向量宽度的东西,这意味着:我可以在 32 个“数据”上并行执行一条指令?

如果是这样,这是否意味着费米架构总共允许对 16 * 32 = 512 个数据并行执行操作,而 16 个操作可以分别不同?

如果是这样,它可以在一秒钟内并行执行512个数据多少次?