问题标签 [nvidia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
69209 浏览

cuda - 流式多处理器、块和线程 (CUDA)

CUDA 内核、流式多处理器和块和线程的 CUDA 模型之间有什么关系?

什么被映射到什么,什么被并行化以及如何?什么更有效,最大化块数或线程数?


我目前的理解是每个多处理器有 8 个 cuda 内核。并且每个 cuda 核心将能够一次执行一个 cuda 块。并且该块中的所有线程都在该特定核心中连续执行。

它是否正确?

0 投票
2 回答
129 浏览

c++ - 部分卡片上的 cuda 应用程序

我有一台 Nvidia Tesla s2050;带有 nvidia quadro 卡的主机。带有 CUDA 3.1 的 CentOS 5.5 当我运行 cuda 应用程序时,我想使用 4 Tesla c-2050,但不包括主机上的 quadro,以免在将工作平均分成 5 时落后于整体性能。有什么方法可以实现吗?

0 投票
1 回答
1353 浏览

c - 并发,4个CUDA应用争抢GPU资源

如果有四个并发的 CUDA 应用程序在一个 GPU 中竞争资源以便他们可以将工作卸载到显卡上会发生什么?Cuda Programming Guide 3.1 提到有些方法是异步的:

  • 内核启动
  • 设备设备内存副本
  • 64 KB 或更小的内存块的主机设备内存副本
  • 由后缀为 Async 的函数执行的内存复制
  • 内存集函数调用

它还提到,只要内核属于同一上下文,具有计算能力 2.0 的设备就能够同时执行多个内核。

这种类型的并发是否仅适用于单个 cuda 应用程序中的,但在有完全不同的应用程序请求 GPU 资源时是不可能的?

这是否意味着并发支持仅在 1 个应用程序(上下文???)中可用,并且 4 个应用程序将仅以并发方式运行,方法可能因 CPU 中的上下文切换而重叠,但 4 个应用程序需要等待直到 GPU 被其他应用程序释放?(即从 app4 启动内核会等到从 app1 启动内核完成..)

如果是这样,这 4 个应用程序如何访问 GPU 资源而不需要长时间等待?

0 投票
1 回答
1032 浏览

c++ - C++ Nvidia Cg 问题

我最近开始使用Nvidia Cg着色器,如果我在Nvidia GPUGTS250在我的情况下)上这样做,一切看起来和工作都很好。

我尝试启动相同的(我自己的测试应用程序),ATI HD4650但没有看到任何输出。在那之后,我开始尝试测试示例(提供Nvidia Cg 3.0)和 6/7 工作,但第一个(似乎是最简单的)没有。

这是着色器代码:

我不知道为什么这个简单的着色器不起作用,而例如与以下 passthru-shader配对Nvidia Cg SDK的相同着色器确实起作用(来自 的示例 2 ):

有人遇到过同样的麻烦吗?有任何想法吗?

谢谢你。


在此处更新:打开最大调试输出使问题变得明显:

该包中的第一个示例是唯一一个只有顶点着色器的示例,没有任何(甚至是简单的直通)像素着色器。我不知道为什么 Nvidia Cg 运行时会在这种情况下生成不兼容的着色器,但它显然只在有点旧的 GPU ( ATI HD4650) 上失败了。

无论如何,我很愚蠢,可以在不打开调试输出的情况下工作。

2 Alex Farber:我想你可以发布一个虚拟答案,这样我就可以奖励你,因为你帮助我意识到我忘了打开调试。谢谢你。

0 投票
3 回答
1032 浏览

cuda - GPGPU、OpenCL、CUDA、ATI 流

请告诉我 GPGPU 已经存在哪些技术以及哪些硬件供应商实施了 GPGPU?

从早上开始,我一直在阅读各种网站上的文章,我变得很困惑。

0 投票
5 回答
47436 浏览

cuda - 什么是银行冲突?(做 Cuda/OpenCL 编程)

我一直在阅读 CUDA 和 OpenCL 的编程指南,但我无法弄清楚银行冲突是什么。他们只是深入研究如何解决问题,而没有详细说明主题本身。有人可以帮我理解吗?如果帮助是在 CUDA/OpenCL 的上下文中,或者只是计算机科学中的一般银行冲突,我没有偏好。

0 投票
3 回答
7269 浏览

cuda - 为什么 Cuda/OpenCL 的全局内存中没有银行冲突?

我还没有弄清楚并且谷歌没有帮助我的一件事是,为什么可能与共享内存发生银行冲突,但在全局内存中却没有?银行与寄存器会发生冲突吗?

更新 哇,我真的很感谢 Tibbit 和 Grizzly 的两个答案。看来我只能给一个答案打一个绿色的复选标记。我对堆栈溢出很陌生。我想我必须选择一个答案作为最佳答案。我可以做些什么来感谢我不给绿色检查的答案吗?

0 投票
1 回答
482 浏览

memory - 计算教授的非连贯和连贯 gst/gld 场?(CUDA/OpenCL)

我正在使用 Compute Prof 3.2 和 Geforce GTX 280。我相信我有 1.3 的计算能力。

这个文件似乎表明我应该能够看到这些字段,因为我使用的是 1.x 计算设备。好吧,我看不到它们,并且 3.2 工具包的用户指南说我看不到它们,但将它们gst_uncoalesced称为gst_coalesced.

总而言之,如果我从全局内存中进行非合并读取,我对如何从分析器中弄清楚我感到困惑。看起来费米卡也不会说,但我现在并不担心它们。如果有人能详细说明情况,我将不胜感激。

此外,我被告知要查看我的内核程序集以解决这些问题,因此任何有关如何执行此操作的详细说明也值得赞赏。我也刚刚开始尝试弄清楚这些东西:)

0 投票
1 回答
607 浏览

memory - 合理化我的简单 OpenCL 内核中关于全局内存的情况

上面的内核是一个向量加法,每个循环执行十次。我已经使用编程指南和堆栈溢出来弄清楚全局内存是如何工作的,但是如果我以一种好的方式访问全局内存,我仍然无法通过查看我的代码来弄清楚。我以连续的方式访问它,并且我以一致的方式猜测。卡是否为数组 a、b 和 c 加载了 128kb 的全局内存块?然后它是否为每处理 32 个 gid 索引加载一次每个数组的 128kb 块?(4*32=128) 看来我并没有浪费任何全局内存带宽,对吧?

顺便说一句,计算分析器显示 gld 和 gst 效率为 1.00003,这看起来很奇怪,我认为如果我所有的存储和负载都合并,它只会是 1.0。1.0以上怎么样?

0 投票
1 回答
317 浏览

macos - 当动态图形设备切换处于活动状态时,OS X 上的 SDL/OpenGL 出现无数警告

在具有两个图形设备的 macbook pro 的 Snow Leopard 上,以下错误每秒多次打印到 stderr:

当我强制图形设备为 Nvidia 或 Intel 时,它按预期工作。

有谁知道我该如何处理这个问题?我想我可能只是在 OpenGL 初始化之前强制图形设备切换,但我不知道这样做的可靠方法,听起来也不像是一个特别好的解决方案。

有更好的想法吗?