问题标签 [nvidia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
274 浏览

cuda - Performance differences between different CUDA SDK's?

If I want to re-write my application so that it leverages the power of nVidia's CUDA SDK, are there any differences at all in runtime performance between the different SDK offerings: C++, Java, Python?

Is there any difference at all between these 3 SDK's, besides the obvious language being used?

0 投票
2 回答
1057 浏览

visual-studio-2010 - 如何在未安装 VS2008 的情况下为 VS2010 安装 Nvidia Parallel NSight (Nexus)?

有没有办法在没有安装 VS2008 SP1 的情况下安装 Parallel NSight 并将其与 Visual Studio 2010 一起使用?
安装程序检查是否安装了 VS2008,如果没有安装将不会继续。我知道 VS2010 没有官方支持,但我在论坛上发现了一个可以将 Nexus 集成到 VS2010 中的小应用程序,它似乎可以工作。

0 投票
2 回答
5708 浏览

compilation - NVIDIA CUDA SDK 示例编译不支持的架构“compute_20”

在编译 CUDA SDK 时,我得到一个 nvcc 致命错误:不支持的 gpu 架构 'compute_20' 我的工具包是 2.3,在共享系统上(即不能真正升级),驱动程序版本也是 2.3,在 4 个 Tesla C1060s 上运行

如果有帮助,则在 radixsort 中调用了该问题。

似乎网上有几个人遇到了这个问题,但我还没有找到任何真正给出解决方案的地方。

0 投票
3 回答
3036 浏览

cuda - CUDA 中全局内存上的原子操作是否跨经线并行执行?

我需要在 CC 2.0 设备上的全局内存上执行原子 FP 添加操作。如果扭曲中引用的全局数据适合对齐的 128 字节扇区,这些操作是并行执行还是一次执行一个?

我的猜测是它们是平行的,但我不确定

问候 Gautham Ganapathy

0 投票
3 回答
1548 浏览

timeout - CUDA 超时?/费米/gtx465

我在带有 GPU GTX465 1 GB 的 MS VS2005 上使用 CUDA SDK 3.1。我有这样一个核函数:

这是调用内核函数的函数:

我正在循环中加载该函数的所有参数(例如,在一次循环迭代中每个参数有 4096 个元素)。总的来说,我想在所有循环迭代之后为每个参数制作 32768 个元素的内核。

MAX_FINAL_X 为 1920,MAX_FINAL_Y 为 1080。

当我开始算法时,第一次迭代非常快,经过一两次迭代后,我得到了有关 CUDA 超时错误的信息。我在 GPU gtx260 上使用了这个算法,据我记得它做得更好......

你能帮我..也许我在这个算法中根据新的费米拱门犯了一些错误?

0 投票
1 回答
4601 浏览

c - CUDA 基本矩阵加法 - 大型矩阵

我正在尝试添加两个 4800x9600 矩阵,但遇到了困难......

这是一个简单的C = A + B操作......

这是内核:

这是代码:

我正在使用如下矩阵:

这是我打印前 10 行和后 10 行时的输出:

正如你所看到的,C=A+B 只是不工作......

矩阵的上半部分没问题,但下半部分就乱套了。我不知道所有这些零是从哪里来的......

难道我做错了什么?

任何见解都非常感谢。提前谢谢了,

0 投票
3 回答
3083 浏览

matrix - CUDA 添加矩阵的行

我正在尝试将 4800x9600 矩阵的行加在一起,得到一个 1x9600 的矩阵。

我所做的是将 4800x9600 拆分为 9,600 个长度为 4800 的矩阵。然后我对 4800 个元素进行缩减。

问题是,这真的很慢......

有人有什么建议吗?

基本上,我正在尝试实现 MATLAB 的 sum(...) 函数。

这是我验证过的代码可以正常工作,只是它真的很慢:

矩阵定义为:

ReduceTotal() 只是调用标准的 NVIDIA 缩减,对 Dchunk 中的所有元素求和,然后将答案放入 DcolSum 中。

如果找不到答案,我将在 CPU 上执行所有这些操作... ;(

提前谢谢了,

0 投票
1 回答
531 浏览

c++ - glBufferData 因尺寸过大而静默失败

我刚刚注意到,当我尝试使用大小:1085859108 和数据:NULL 调用它时,glBufferData 会静默失败。

对 glBufferSubData 的调用失败并出现 OUT_OF_MEMORY“异常”。这是在 Windows XP 32 位、NVIDIA Gforce 9500 GT (1024MB) 和 195.62 驱动程序上。

有什么方法可以确定缓冲区是否成功创建?(例如像代理纹理之类的东西?)

亲切的问候,弗洛里安

0 投票
5 回答
28090 浏览

linux - Linux中没有X.org的OpenGL

我想在 Linux 中打开一个没有 X 的 OpenGL 上下文。有什么办法吗?

我知道集成英特尔显卡硬件是可能的,尽管大多数人的系统中都有 Nvidia 卡。我想要一个适用于 Nvidia 卡的解决方案。

如果除了通过集成的英特尔硬件别无他法,我想知道这些是如何完成的就可以了。

X11 协议本身过于庞大和复杂。它提供的鼠标/键盘/平板电脑输入多路复用对于现代程序来说太淡化了。我认为这是阻止 Linux 桌面改进的最大障碍,这就是我寻找替代方案的原因。

0 投票
1 回答
3151 浏览

winsock - 如何调查客户端 WSAECONNABORTED 仅在配备 NVIDIA Quadro 的机器上经常发生?

我们有一个 C++ 客户端/服务器应用程序,其中客户端从服务器检索和呈现 3D 内容。

我们的客户端经常与服务器断开连接(不到 1 分钟后超过 50% 的运行)recv失败并WSAGetLastError返回WSAECONNABORTED。但奇怪的是,这仅在以下情况下才会发生:

  • 客户端有一个 NVIDIA Quadro GPU(发生在具有不同版本 Quadro 的多台机器上)
  • 我们的应用程序使用 OpenGL 进行渲染

我们没有在具有另一个 GPU 的机器上看到这一点。切换到 Direct3D 进行渲染也会使断开连接消失。在通过 Windows 更新推送驱动程序更新后,在一台 Quadro 机器上,这种情况开始出现(不太常见,但每天仍不止一次)。恢复驱动程序有帮助。

服务器也失败recvWSAECONNRESET。根据这个答案,我们在服务器端做错了,我们确实做错了shutdown,然后立即close。但是由于服务器得到了WSAECONNRESET我会说客户端首先强制断开连接,所以问题不是由服务器执行错误关闭引发的。

从长远来看,我们可能会修复服务器shutdown+close问题,但我们需要一些短期解决方法或解释 Quadros 上的行为。也许这是一个驱动程序错误,它以某种方式与 Winsock 交互,即使它听起来很古怪。

我是对的,服务器WSAECONNRESET意味着客户端首先断开连接吗?

关于如何解决 GPU 驱动程序可能导致套接字的潜在奇怪错误的任何想法?当然,我不希望为我们奇怪的问题提供具体的解决方案,但任何想法都可以。