问题标签 [compute-capability]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cuda - 编译时的 CUDA 设备属性和计算能力
假设我有一个代码可以让用户通过threads_per_block
调用内核。然后我想检查输入是否有效(例如 <=512 表示计算能力 CC <2.0 和 1024 表示 CC >=2.0)。
现在我想知道如果我nvcc -arch=sm_13
在我的计算机中使用 CC2.0 的图形卡编译代码时会发生什么,当用户通过时threads_per_block == 1024
?这是:
- 一个有效的输入 - 因为我运行的卡有 CC2.0,或者......
- 无效,因为我为 CC1.3 编译它?
还是nvcc -arch=sm_13
仅仅意味着 CC1.3 至少是必要的,但是在更高的 CC 上运行它时,尽管可以使用那些更高的功能?
cuda - CUDA 能力和 CUDA 版本:兼容吗?
我有一台具有 1.1 计算能力 CUDA GPU 的机器。我想重新安装 CUDA,我想我会选择 5.0;
CUDA 功能和 CUDA 版本之间是否存在兼容性?将 CUDA 5.0 与 CC 1.1 一起使用会遇到麻烦吗?显卡?
谢谢!
cuda - 在 CUDA 上处理双精度值(计算能力 1.1)
我的代码正在为大量数据计算 3D-DCT。
它在 GeForce 9400M 上运行,计算能力 1.1(据我所知不支持双精度)。
有没有办法启用它,或者正确处理这些值?
opencl - OpenCL 设备信息与 CUDA 计算能力
nVIDIA 的 CUDA 具有Compute Capability的概念,在此概念下,它将许多重要的功能标志和数字参数组合在一起。在 OpenCL 方面,我知道clGetDeviceInfo,但是 CUDA CC 定义所涵盖的内容与 clGetDeviceInfo 提供的内容之间的差异似乎非常显着。此外,我并没有真正发布英特尔或 AMD 发布的带有 clGetDeviceInfo 值的表格,用于它们连续的离散或集成 GPU。
是否有一些其他机制 OpenCL 设备发布关于它们自己的信息(可能不是标准化的)?我在哪里可以找到非 nVIDIA GPU 的计算能力表的等价物?
cuda - 为什么 nvlink 警告我缺少 sm_20(计算能力 2.0)目标代码?
我正在使用 GTX Titan 卡(计算能力 3.5)的机器上使用 CUDA 6.5。我正在构建我的代码-gencode=arch=compute_30,code=sm_30 -gencode=arch=compute_35,code=sm_35
- 当我链接我的二进制文件时,nvlink 说:
为什么它会警告我?我需要sm_20
一些我不知道的东西吗?如果仅仅是因为缺乏较低的计算能力支持,那为什么不sm_10
呢?(另外,如果它是免费的,我该如何关闭警告?)
c++ - CUDA 计算能力向后兼容
我目前正在使用为计算能力 5.2 编译的 CUDA 代码。我的机器恰好具有计算能力 5.2 GPU (GeForce GTX 970)。但是,我的问题是:为计算能力 5.2 编译的代码是否仍然可以在计算能力低至 3 的机器上运行?(假设代码从不违反较低计算能力的限制,如共享内存差异等)
tensorflow - 无法将 GPU 与 Tensorflow 一起使用
我已经安装了 CUDA 7.5 和 cuDNN 5.0 的 tensorflow。我的显卡是具有 2.1 功能的 NVIDIA Geforce 820M。但是,我收到此错误。
有没有办法在 2.1 功能上运行 GPU?我在网上搜了一下发现是cuDNN需要这个能力,那么安装较早版本的cuDNN可以让我使用GPU吗?
cuda - 我可以调用什么实用程序/二进制文件来确定 nVIDIA GPU 的计算能力?
假设我有一个安装了单个 GPU 的系统,并且假设我还安装了最新版本的 CUDA。
我想确定我的 GPU 的计算能力是什么。如果我可以编译代码,那将很容易:
但是 - 假设我想在不编译的情况下这样做。我可以吗?我想nvidia-smi
可能对我有帮助,因为它可以让您查询有关设备的各种信息,但似乎它并不能让您获得计算能力。也许我还能做点别的?/proc
也许通过或系统日志可见的东西?
编辑:这旨在在构建之前在我无法控制的系统上运行。所以它必须具有最小的依赖关系,在命令行上运行并且不需要 root 权限。
cuda - 最大并发内核数和虚拟代码架构
所以我找到了这个维基百科资源
每个设备的最大驻留网格数(并发内核执行)
并且对于每个计算能力,它表示了一些并发内核,我认为这是并发内核的最大数量。
现在我收到了 GTX 1060,根据这个 nvidia CUDA 资源,它的计算能力为 6.1。根据我迄今为止对 CUDA 的了解,您可以在 NVCC 的编译时指定代码的虚拟计算能力,尽管使用 flag -arch=compute_XX
。
那么我的 GPU 是否会被硬件限制为 32 个并发内核,或者它是否能够使用-arch=compute_60
flag 来支持 128 个?
c++ - 使用 cmake 和 3.5 计算能力编译 CUDA 代码
我需要编译一个使用 cmake 动态并行的 CUDA 代码。代码是:
并且cmake如下:
我尝试使用传递的 nvcc 直接编译代码-arch=compute_35 -rdc=true -lcudadevrt
并且它编译完美,但是当我尝试使用 cmake 编译时它返回以下错误: