问题标签 [cuda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8857 浏览

c++ - CUDA 编译器 (nvcc) 宏

是否有我可以使用的 CUDA 的#define 编译器 (nvcc) 宏?(如 _WIN32 用于 Windows 等。)

我需要这个用于在 nvcc 和 VC++ 编译器之间通用的头代码。我知道我可以继续定义我自己的并将其作为参数传递给 nvcc 编译器 (-D),但如果已经定义了它会很棒。

0 投票
4 回答
297 浏览

algorithm - 如何设计一个近似解算法

我想编写一个算法,可以获取图片的一部分并将它们与同一对象的另一张图片相匹配。

例如,如果我给计算机一张花瓶的图片和一张带有花瓶的场景图片,我希望它能够确定花瓶在图像中的位置。我将如何开始开发这样的算法?

该算法的最终用途将是一个应用程序,例如,使用某人的面部照片可以判断他们是否在人群中。该算法最终将应用于视频流。

编辑:我不期待这个问题的实际解决方案,因为我不希望很快解决它。真正的问题是你如何为计算机定义这样的东西,以便你可以制定一个算法来做到这一点。

谢谢

0 投票
5 回答
1549 浏览

cuda - CUDA 与 Direct X 10 用于并行数学。你有什么想法吗?

CUDA 与 Direct X 10 用于并行数学。你有什么想法吗?

0 投票
7 回答
3301 浏览

c - 给 C、CUDA 和 ANN 新手的建议?

我是商科专业的,我的学位课程已经完成了三分之二,有一点 PHP 经验,上过一门 C++ 入门课程,现在后悔选择了商科而不是编程/计算机科学。

我有兴趣学习更高级的编程;特别是 C,并最终使用 CUDA 架构进行人工神经网络数据分析(不是用于人工智能、视觉或语音处理,而是用于查找大型数据集中数据点之间的相关性和一般数据/统计分析)。

关于我应该如何开始学习 C 的任何建议?以及用于分析数据的 ANN/贝叶斯技术?书太多了,不知道选什么。

由于 CUDA 相当新,因此似乎没有太多对学习者友好(即简化)的材料。除了 NVIDIA 文档之外,是否还有针对 CUDA 的学习资源?

此外,您会向我推荐哪些有关 GPGPU 计算和大规模并行编程的资源来帮助我?

0 投票
9 回答
22311 浏览

random - CUDA 中的随机数生成器

我整天都在为此苦苦挣扎,我试图在我的 CUDA 代码中为线程获取一个随机数生成器。我浏览了所有论坛,是的,这个话题出现了很多,但我花了几个小时试图解开各种代码,但无济于事。如果有人知道一个简单的方法,可能是一个可以调用的设备内核返回一个介于 0 和 1 之间的随机浮点数,或者一个我可以转换的整数,我将不胜感激。

同样,我希望在内核中使用随机数,就像 rand() 一样。

提前致谢

0 投票
3 回答
289 浏览

cuda - “初学者”分布式处理项目

很长一段时间以来,我一直对构建一个异构节点集群感兴趣,以尝试拥有一台家用超级计算机,因为我对人工智能研究非常感兴趣。

然而,问题是即使我有无数的硬件,(2x 双四机架安装服务器,8 285GTX Gpus,6x PS3s 2x Hacked 360s(它们可以运行 linux)访问大量普通 PC 以及一些工作站)我没有需要处理的大型数据集,甚至没有任何可以分布式运行的软件。我已经搞乱了分布式代码编译,但充其量它使我的内核构建从 10 分钟(最坏的情况)到 30 秒(我认为其中 20 秒只是设置)。

那么我应该从哪里开始呢?我对 Obj-C/C/C++ 有相当的了解,所以写东西应该不会太难,但我应该写什么呢?

0 投票
3 回答
27373 浏览

multidimensional-array - 在 CUDA 中的设备内存上分配二维数组

如何在 Cuda 的设备内存中分配和传输(与主机之间)二维数组?

0 投票
1 回答
6870 浏览

c - CUDA 共享内存数组 - 奇怪的行为

在 CUDA 内核中,我的代码类似于以下内容。我正在尝试为每个线程计算一个分子,并将分子累加到块上以计算分母,然后返回比率。但是,CUDA 将 denom 的值设置为块中具有最大 threadIdx.x 的线程为 numer 计算的任何值,而不是跨块中所有线程计算的 numer 值的总和。有谁知道发生了什么?

“结果”应始终介于 0 和 1 之间,并且在整个块中的总和应为 1,但对于 threadIdx.x 为最大值的每个线程,它等于 1.0,并且某些其他值不限于其他线程的范围在块中。

0 投票
2 回答
2282 浏览

c - 我如何开始在 UBUNTU 9.04 上进行 CUDA 开发?

如何开始在 Ubuntu 9.04 上进行 CUDA 开发?是否有任何预构建的二进制文件?默认加速驱动程序是否足够?

我的想法是实际使用 OpenCL,但现在似乎很难做到,所以我想我会从 CUDA 开始,然后在更容易获得的时候将我的应用程序移植到 OpenCL。

0 投票
1 回答
4480 浏览

cuda - cudaMemcpyToSymbol 不复制数据

我想使用__constant__所有内核中的所有线程都可以访问的内存。

声明是这样的

我正在使用将数据复制到此变量

smooth_size = 7K 字节

它给了我不正确的输出

但是当我在-deviceemu模式下运行它并尝试在内核中打印这两个变量的内容时,我得到了所有的零平滑和smooth_local 是正确的。

cudaMemcpyToSymbol我尝试在它仍然给我 0之后打印输出。

你能解释一下我的问题吗?