问题标签 [nvidia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cuda - Performance differences between different CUDA SDK's?
If I want to re-write my application so that it leverages the power of nVidia's CUDA SDK, are there any differences at all in runtime performance between the different SDK offerings: C++, Java, Python?
Is there any difference at all between these 3 SDK's, besides the obvious language being used?
visual-studio-2010 - 如何在未安装 VS2008 的情况下为 VS2010 安装 Nvidia Parallel NSight (Nexus)?
有没有办法在没有安装 VS2008 SP1 的情况下安装 Parallel NSight 并将其与 Visual Studio 2010 一起使用?
安装程序检查是否安装了 VS2008,如果没有安装将不会继续。我知道 VS2010 没有官方支持,但我在论坛上发现了一个可以将 Nexus 集成到 VS2010 中的小应用程序,它似乎可以工作。
compilation - NVIDIA CUDA SDK 示例编译不支持的架构“compute_20”
在编译 CUDA SDK 时,我得到一个 nvcc 致命错误:不支持的 gpu 架构 'compute_20' 我的工具包是 2.3,在共享系统上(即不能真正升级),驱动程序版本也是 2.3,在 4 个 Tesla C1060s 上运行
如果有帮助,则在 radixsort 中调用了该问题。
似乎网上有几个人遇到了这个问题,但我还没有找到任何真正给出解决方案的地方。
cuda - CUDA 中全局内存上的原子操作是否跨经线并行执行?
我需要在 CC 2.0 设备上的全局内存上执行原子 FP 添加操作。如果扭曲中引用的全局数据适合对齐的 128 字节扇区,这些操作是并行执行还是一次执行一个?
我的猜测是它们是平行的,但我不确定
问候 Gautham Ganapathy
timeout - CUDA 超时?/费米/gtx465
我在带有 GPU GTX465 1 GB 的 MS VS2005 上使用 CUDA SDK 3.1。我有这样一个核函数:
这是调用内核函数的函数:
我正在循环中加载该函数的所有参数(例如,在一次循环迭代中每个参数有 4096 个元素)。总的来说,我想在所有循环迭代之后为每个参数制作 32768 个元素的内核。
MAX_FINAL_X 为 1920,MAX_FINAL_Y 为 1080。
当我开始算法时,第一次迭代非常快,经过一两次迭代后,我得到了有关 CUDA 超时错误的信息。我在 GPU gtx260 上使用了这个算法,据我记得它做得更好......
你能帮我..也许我在这个算法中根据新的费米拱门犯了一些错误?
c - CUDA 基本矩阵加法 - 大型矩阵
我正在尝试添加两个 4800x9600 矩阵,但遇到了困难......
这是一个简单的C = A + B操作......
这是内核:
这是代码:
我正在使用如下矩阵:
这是我打印前 10 行和后 10 行时的输出:
正如你所看到的,C=A+B 只是不工作......
矩阵的上半部分没问题,但下半部分就乱套了。我不知道所有这些零是从哪里来的......
难道我做错了什么?
任何见解都非常感谢。提前谢谢了,
matrix - CUDA 添加矩阵的行
我正在尝试将 4800x9600 矩阵的行加在一起,得到一个 1x9600 的矩阵。
我所做的是将 4800x9600 拆分为 9,600 个长度为 4800 的矩阵。然后我对 4800 个元素进行缩减。
问题是,这真的很慢......
有人有什么建议吗?
基本上,我正在尝试实现 MATLAB 的 sum(...) 函数。
这是我验证过的代码可以正常工作,只是它真的很慢:
矩阵定义为:
ReduceTotal() 只是调用标准的 NVIDIA 缩减,对 Dchunk 中的所有元素求和,然后将答案放入 DcolSum 中。
如果找不到答案,我将在 CPU 上执行所有这些操作... ;(
提前谢谢了,
c++ - glBufferData 因尺寸过大而静默失败
我刚刚注意到,当我尝试使用大小:1085859108 和数据:NULL 调用它时,glBufferData 会静默失败。
对 glBufferSubData 的调用失败并出现 OUT_OF_MEMORY“异常”。这是在 Windows XP 32 位、NVIDIA Gforce 9500 GT (1024MB) 和 195.62 驱动程序上。
有什么方法可以确定缓冲区是否成功创建?(例如像代理纹理之类的东西?)
亲切的问候,弗洛里安
linux - Linux中没有X.org的OpenGL
我想在 Linux 中打开一个没有 X 的 OpenGL 上下文。有什么办法吗?
我知道集成英特尔显卡硬件是可能的,尽管大多数人的系统中都有 Nvidia 卡。我想要一个适用于 Nvidia 卡的解决方案。
如果除了通过集成的英特尔硬件别无他法,我想知道这些是如何完成的就可以了。
X11 协议本身过于庞大和复杂。它提供的鼠标/键盘/平板电脑输入多路复用对于现代程序来说太淡化了。我认为这是阻止 Linux 桌面改进的最大障碍,这就是我寻找替代方案的原因。
winsock - 如何调查客户端 WSAECONNABORTED 仅在配备 NVIDIA Quadro 的机器上经常发生?
我们有一个 C++ 客户端/服务器应用程序,其中客户端从服务器检索和呈现 3D 内容。
我们的客户端经常与服务器断开连接(不到 1 分钟后超过 50% 的运行)recv
失败并WSAGetLastError
返回WSAECONNABORTED
。但奇怪的是,这仅在以下情况下才会发生:
- 客户端有一个 NVIDIA Quadro GPU(发生在具有不同版本 Quadro 的多台机器上)
- 我们的应用程序使用 OpenGL 进行渲染
我们没有在具有另一个 GPU 的机器上看到这一点。切换到 Direct3D 进行渲染也会使断开连接消失。在通过 Windows 更新推送驱动程序更新后,在一台 Quadro 机器上,这种情况开始出现(不太常见,但每天仍不止一次)。恢复驱动程序有帮助。
服务器也失败recv
了WSAECONNRESET
。根据这个答案,我们在服务器端做错了,我们确实做错了shutdown
,然后立即close
。但是由于服务器得到了WSAECONNRESET
我会说客户端首先强制断开连接,所以问题不是由服务器执行错误关闭引发的。
从长远来看,我们可能会修复服务器shutdown
+close
问题,但我们需要一些短期解决方法或解释 Quadros 上的行为。也许这是一个驱动程序错误,它以某种方式与 Winsock 交互,即使它听起来很古怪。
我是对的,服务器WSAECONNRESET
意味着客户端首先断开连接吗?
关于如何解决 GPU 驱动程序可能导致套接字的潜在奇怪错误的任何想法?当然,我不希望为我们奇怪的问题提供具体的解决方案,但任何想法都可以。