问题标签 [gpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - Matlab GPU加速加载大型点云数据集
我正在尝试在 MATLAB 的 3d 空间中加载一个包含一百万个点的大型数据集,但是每当我尝试绘制它(散点图或 plot3)时,它都需要很长时间。这是在配备英特尔图形媒体加速器 950、高达 224 MB 共享系统内存的笔记本电脑上。这有时也会导致 Matlab 2008a 崩溃。有没有办法让 MATLAB 使用 Nvidia GPU 来绘制这个数据集。我有另一台配备 Nvidia Go 6150 的笔记本电脑。我使用的是 Windows Xp 和 Windows 7。
.net - 以编程方式获取 GPU 利用率
是否有一种标准方法可以获取 GPU 上的当前负载?我正在寻找类似于显示 CPU% 的任务管理器的内容。GPU-Z 等实用程序显示了这个值,但我不确定它是如何得到这个值的。我目前对 AMD 显卡特别感兴趣,任何指针都会有所帮助。
如果没有干净的 API 方法,是否有任何程序可以捕获其输出以获取此信息?
c++ - CUDA __global__ 函数中的 printf
我目前正在 GPU 上编写矩阵乘法并想调试我的代码,但是由于我不能在设备函数中使用 printf,所以我可以做些什么来查看该函数内部发生了什么。这是我当前的功能:
我很想知道 Ad 和 Bd 是否是我认为的那样,并看看该函数是否真的被调用了。
gpu - DirectX HAL 规范
哪里可以找到 DirectX HAL 规范?
以这个图是正确的
然后所有 GPU 供应商都必须编写他们的设备驱动程序,以便他们与 HAL 对话。
HAL 在哪里指定?MSFT 如何调整或更新 HAL?HAL 何时更改?如果 HAL 发生变化,是天崩地裂还是天塌地陷?
opengl - 在 OpenGL 中处理 FBO 的最佳方法是什么?
很长一段时间以来,我一直想知道处理 OpenGL 帧缓冲区对象 (FBO) 的最佳方法是什么。切换 FBO 的成本可能很高,但也会定义新的附件。
你怎么做的快?
我在这三个之间犹豫:
1个FBO,改变附件,但不要在FBO之间切换
渲染路径中每个渲染目标(大小 + 格式)的 1 个 FBO。这意味着我将为类似的渲染目标重用相同的 FBO。但这种方式自定义模糊将花费 4+ FBO。
每个渲染目标1个FBO,只设置一次附件,然后在FBO之间切换
另外,我应该尽量减少 FBO 开关的数量(就像我尽量减少纹理绑定的数量一样)?
cuda - help me understand cuda
i am having some troubles understanding threads in NVIDIA gpu architecture with cuda.
please could anybody clarify these info: an 8800 gpu has 16 SMs with 8 SPs each. so we have 128 SPs.
i was viewing stanford's video presentation and it was saying that every SP is capable of running 96 threads cuncurrently. does this mean that it (SP) can run 96/32=3 warps concurrently?
moreover, since every SP can run 96 threads and we have 8 SPs in every SM. does this mean that every SM can run 96*8=768 threads concurrently?? but if every SM can run a single Block at a time, and the maximum number of threads in a block is 512, so what is the purpose of running 768 threads concurrently and have a max of 512 threads?
a more general question is:how are blocks,threads,and warps distributed to SMs and SPs? i read that every SM gets a single block to execute at a time and threads in a block is divided into warps (32 threads), and SPs execute warps.
opengl - OpenGL GPU 内存清理,需要吗?
我是否必须通过 glDelete* 函数手动清理所有显示列表、纹理、(几何-)着色器等,或者当我的程序退出/崩溃时 GPU 内存是否会自动释放?
注意:GPU 内存是指专用显卡上的专用内存,而不是 CPU 内存。
flash - 是否有可能使 Flash 100% GPU 加速,即使在浏览器之外?
我试图弄清楚 flash 10 的 GPU 加速能力的范围。是否有可能让您的代码 100% 加速 GPU,或者只是某些沙盒功能?即使我必须走出浏览器才能获得它,或者确切地知道我可以在浏览器内部实现多少以及什么样的 GPU 加速。
一篇好文章的链接将是惊人的。
vmware - VMware 上的 cuda 程序
我写了一个 cuda 程序,我在 ubuntu 上测试它作为一个虚拟机。这样做的原因是我有windows 7,我不想安装ubuntu作为辅助操作系统,我需要使用linux操作系统进行测试。我的问题是:虚拟机会限制 GPU 资源吗?那么,如果我在主操作系统下运行 cuda 代码会比在虚拟机上运行它更快吗?
opengl - OpenGL“叠加”两个渲染
博览会:
现在,我想在屏幕上创建以下图像:
有没有办法我可以完全在 GPU 上完成这最后一步(看起来只是有点玩弄 + 显示到屏幕上)。我目前的解决方案包括 1) 将 tex1 & tex2 读回 CPU 的内存 2) 在 CPU 上执行数组操作和 3) 将其发送回 GPU,然后显示它。但是,似乎我应该能够完全在 GPU 上做到这一点。
谢谢!