问题标签 [kepler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

63 问题

0 投票

1 回答

421 浏览

cuda - 为什么 GK110 有 192 个核心和 4 个 warp？

我想感受一下开普勒的架构，但这对我来说没有意义。

如果一个 warp 是 32 个线程，其中 4 个被调度/执行，这意味着 128 个内核正在使用，64 个处于空闲状态。在白皮书中，它谈到了独立指令，那么 64 个内核是为这些指令保留的吗？

如果是这样，有人可以给我一个例子，说明何时需要独立指令？

cuda kepler

0 投票

1 回答

875 浏览

cuda - 在单个 GPU 上运行多个 MPI 等级时我真的需要 MPS，还是 Kepler 的 Hyper-Q 本身就足够了？

基本上我想在单个 GPU (NVidia K20c) 上运行多个 MPI 等级，并且我知道MPS和 Kepler 的Hyper-Q的存在。

但是，我的问题是，Hyper-Q 本身是否足以满足我的需要？还是我必须使用 MPS？根据上面的 Hyper-Q 链接，“启用 Hyper-Q 不需要额外的编码工作。只需要一个安装了 CUDA 5 并设置环境变量以让多个 MPI 等级共享 GPU 的 Tesla K20 GPU - Hyper -Q 然后就可以使用了。”

这是否意味着我根本不需要 MPS？

ps，我也知道关于类似主题的以下问题，但似乎并没有清楚地回答我的问题。使用 CUDA6.5 + MPI 时是否必须使用 MPS（多进程服务）？

谢谢。

0 投票

1 回答

327 浏览

cuda - GPU Kepler CC3.0 处理器不仅是流水线架构，还是超标量？

在 CUDA 6.5 的文档中写道：http ://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#ixzz3PIXMTktb

5.2.3。多处理器级别

...

8L 用于计算能力 3.x 的设备，因为如计算能力 3.x 中所述，多处理器在一个时钟周期内为每个扭曲发出一对指令，一次四个扭曲。

这是否意味着 GPU Kepler CC3.0 处理器不仅是流水线架构，而且是超标量？

流水线 - 这两个序列并行执行（一次不同的操作）：
- 加载 [addr1] -> 添加 -> 存储 [addr1] -> NOP
- NOP -> 加载 [addr2] -> 添加 -> 存储 [addr2]
超标量 - 这两个序列并行执行（一次相同的操作）：
- 加载 [reg1] -> 添加 -> 存储 [reg1]
- 加载 [reg2] -> 添加 -> 存储 [reg2]

cuda gpgpu nvidia gpu kepler

0 投票

1 回答

526 浏览

cuda - CUDA：使用 Shuffle 指令在 K40 上进行线程块级广播

indirectJ2[MAX_SUPER_SIZE]是一个共享数组。

我的 cuda 设备内核包含以下语句（由线程块中的所有线程执行）：

int nnz_col = indirectJ2[MAX_SUPER_SIZE - 1];

我怀疑这会导致银行冲突。

有什么方法可以使用开普勒 GPU 的新随机播放指令有效地实现上述线程块级广播？我了解它在经线级别是如何工作的。也欢迎其他超出 shuffle 指令的解决方案（例如使用 CUB 等）。

cuda kepler

0 投票

1 回答

453 浏览

cuda - 修改 Nvidia Maxwell，增加全局内存指令数

我使用基准（Parboil，Rodinia）对 GTX760（Kepler）和 GTX750Ti（Maxwell）进行了实验。然后我使用 Nvidia 视觉分析器分析了结果。在大多数应用中，全局指令的数量在 Maxwell 架构上大幅增加了 7-10 倍。

规格。对于两个显卡

GTX760 6.0Gbps 2048MB 256bit 192.2 GB/s

GTX750Ti 5.4Gbps 2048MB 128bit 86.4Gb/s

Ubuntu 14.04

CUDA 驱动程序 340.29

工具包 6.5

我编译了基准应用程序（没有修改），然后我从 NVVP（6.5）收集了结果。分析所有 > 内核内存 > 从 L1/共享内存部分，我收集了全局负载事务计数。

我附上了我们在开普勒（链接）和麦克斯韦（链接）上运行的 histo模拟结果的屏幕截图

有人知道为什么 Maxwell 架构上的全局指令数会增加吗？

谢谢你。

cuda gpu kepler

0 投票

1 回答

2382 浏览

cuda - 内核的最大线程数

我是 cuda 编程的新手。我正在研究具有

这是否意味着我只能为内核分配 2048 ？那么如何处理这么大的网格尺寸呢？

我的应用程序包括一些大量的矩阵计算。

cuda nvidia gpu kepler

0 投票

1 回答

1605 浏览

performance - 不同 GPU 内存空间的访问时间是多少？

这是一个关于离散 GPU 的问题，主要是最近的 GPU（NVIDIA Kepler、Maxwell；以及 AMD Kaveri 和 R290 中的任何东西）。

将其他未缓存的元素从...加载到寄存器中需要多少时间

全局设备内存？
全局内存 L2 缓存？
纹理缓存？
常量缓存？
每核一级缓存？
（每核共享内存 - 应该与 L1 缓存相同。）

到某个地方的表格的链接会很棒，一个解释就可以了......

performance caching gpu kepler maxwell

0 投票

1 回答

429 浏览

cuda - 表面记忆开普勒与麦克斯韦之间的区别

鉴于最新两代 NVIDIA GPU 上的以下低级 (SASS) 指令（参考http://docs.nvidia.com/cuda/cuda-binary-utilities/index.html），有哪些（可能是推测的）差异在硬件/内存层次结构设计（和性能影响）？

表面记忆指令MAXWELL

表面内存指令KEPLER

cuda nvidia kepler maxwell

0 投票

1 回答

18997 浏览

cuda - 如何使用 Nvidia 多进程服务 (MPS) 运行多个非 MPI CUDA 应用程序？

我可以在具有 MPS 的 NVIDIA Kepler GPU 上同时运行非 MPI CUDA 应用程序吗？我想这样做是因为我的应用程序无法充分利用 GPU，所以我希望它们共同运行。有没有代码示例可以做到这一点？

cuda gpu gpgpu nvidia kepler

0 投票

1 回答

2100 浏览

python - Python 开普勒定律绘图

我将绘制围绕太阳的地球。因此，该任务分为 2 个子任务。在第一个任务中，我将近似认为该运动是一个圆圈。

我使用以下代码来获得解决方案，但是程序会以某种方式编辑一个点而不是几个点。你能帮我解决我的算法吗？

所以我的代码：

谢谢你的帮助：）

python kepler

1 2 3 4 5 6 7 8 9 10

问题标签 [kepler]

Reference