问题标签 [kepler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
421 浏览

cuda - 为什么 GK110 有 192 个核心和 4 个 warp?

我想感受一下开普勒的架构,但这对我来说没有意义。

如果一个 warp 是 32 个线程,其中 4 个被调度/执行,这意味着 128 个内核正在使用,64 个处于空闲状态。在白皮书中,它谈到了独立指令,那么 64 个内核是为这些指令保留的吗?

如果是这样,有人可以给我一个例子,说明何时需要独立指令?

0 投票
1 回答
875 浏览

cuda - 在单个 GPU 上运行多个 MPI 等级时我真的需要 MPS,还是 Kepler 的 Hyper-Q 本身就足够了?

基本上我想在单个 GPU (NVidia K20c) 上运行多个 MPI 等级,并且我知道MPS和 Kepler 的Hyper-Q的存在。

但是,我的问题是,Hyper-Q 本身是否足以满足我的需要?还是我必须使用 MPS?根据上面的 Hyper-Q 链接,“启用 Hyper-Q 不需要额外的编码工作。只需要一个安装了 CUDA 5 并设置环境变量以让多个 MPI 等级共享 GPU 的 Tesla K20 GPU - Hyper -Q 然后就可以使用了。”

这是否意味着我根本不需要 MPS?

ps,我也知道关于类似主题的以下问题,但似乎并没有清楚地回答我的问题。 使用 CUDA6.5 + MPI 时是否必须使用 MPS(多进程服务)?

谢谢。

0 投票
1 回答
327 浏览

cuda - GPU Kepler CC3.0 处理器不仅是流水线架构,还是超标量?

在 CUDA 6.5 的文档中写道:http ://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#ixzz3PIXMTktb

5.2.3。多处理器级别

...

  • 8L 用于计算能力 3.x 的设备,因为如计算能力 3.x 中所述,多处理器在一个时钟周期内为每个扭曲发出一对指令,一次四个扭曲。

这是否意味着 GPU Kepler CC3.0 处理器不仅是流水线架构,而且是超标量?

  1. 流水线 - 这两个序列并行执行(一次不同的操作):

    • 加载 [addr1] -> 添加 -> 存储 [addr1] -> NOP
    • NOP -> 加载 [addr2] -> 添加 -> 存储 [addr2]
  2. 超标量 - 这两个序列并行执行(一次相同的操作):

    • 加载 [reg1] -> 添加 -> 存储 [reg1]
    • 加载 [reg2] -> 添加 -> 存储 [reg2]
0 投票
1 回答
526 浏览

cuda - CUDA:使用 Shuffle 指令在 K40 上进行线程块级广播

indirectJ2[MAX_SUPER_SIZE]是一个共享数组。

我的 cuda 设备内核包含以下语句(由线程块中的所有线程执行):

int nnz_col = indirectJ2[MAX_SUPER_SIZE - 1];

我怀疑这会导致银行冲突。

有什么方法可以 使用开普勒 GPU 的新随机播放指令有效地实现上述线程块级广播?我了解它在经线级别是如何工作的。也欢迎其他超出 shuffle 指令的解决方案(例如使用 CUB 等)。

0 投票
1 回答
453 浏览

cuda - *修改* Nvidia Maxwell,增加全局内存指令数

我使用基准(Parboil,Rodinia)对 GTX760(Kepler)和 GTX750Ti(Maxwell)进行了实验。然后我使用 Nvidia 视觉分析器分析了结果。在大多数应用中,全局指令的数量在 Maxwell 架构上大幅增加了 7-10 倍。

规格。对于两个显卡

GTX760 6.0Gbps 2048MB 256bit 192.2 GB/s

GTX750Ti 5.4Gbps 2048MB 128bit 86.4Gb/s

Ubuntu 14.04

CUDA 驱动程序 340.29

工具包 6.5

我编译了基准应用程序(没有修改),然后我从 NVVP(6.5)收集了结果。分析所有 > 内核内存 > 从 L1/共享内存部分,我收集了全局负载事务计数。

我附上了我们在开普勒(链接)和麦克斯韦(链接)上运行的histo模拟结果的屏幕截图

有人知道为什么 Maxwell 架构上的全局指令数会增加吗?

谢谢你。

0 投票
1 回答
2382 浏览

cuda - 内核的最大线程数

我是 cuda 编程的新手。我正在研究具有

这是否意味着我只能为内核分配 2048 ?那么如何处理这么大的网格尺寸呢?

我的应用程序包括一些大量的矩阵计算。

0 投票
1 回答
1605 浏览

performance - 不同 GPU 内存空间的访问时间是多少?

这是一个关于离散 GPU 的问题,主要是最近的 GPU(NVIDIA Kepler、Maxwell;以及 AMD Kaveri 和 R290 中的任何东西)。

将其他未缓存的元素从...加载到寄存器中需要多少时间

  • 全局设备内存?
  • 全局内存 L2 缓存?
  • 纹理缓存?
  • 常量缓存?
  • 每核一级缓存?
  • (每核共享内存 - 应该与 L1 缓存相同。)

到某个地方的表格的链接会很棒,一个解释就可以了......

0 投票
1 回答
429 浏览

cuda - 表面记忆开普勒与麦克斯韦之间的区别

鉴于最新两代 NVIDIA GPU 上的以下低级 (SASS) 指令(参考http://docs.nvidia.com/cuda/cuda-binary-utilities/index.html),有哪些(可能是推测的)差异在硬件/内存层次结构设计(和性能影响)?

表面记忆指令MAXWELL

表面内存指令KEPLER

0 投票
1 回答
18997 浏览

cuda - 如何使用 Nvidia 多进程服务 (MPS) 运行多个非 MPI CUDA 应用程序?

我可以在具有 MPS 的 NVIDIA Kepler GPU 上同时运行非 MPI CUDA 应用程序吗?我想这样做是因为我的应用程序无法充分利用 GPU,所以我希望它们共同运行。有没有代码示例可以做到这一点?

0 投票
1 回答
2100 浏览

python - Python 开普勒定律绘图

我将绘制围绕太阳的地球。因此,该任务分为 2 个子任务。在第一个任务中,我将近似认为该运动是一个圆圈。

我使用以下代码来获得解决方案,但是程序会以某种方式编辑一个点而不是几个点。你能帮我解决我的算法吗?

所以我的代码:

谢谢你的帮助 :)