问题标签 [cuda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cuda - CUDA:什么是散写?
CUDA SDK 中的各种 CUDA demo 均指“分散写入”。这是什么零散的文字,为什么这么棒?与之形成对比的是什么?
xcode - XCode 和 CUDA 集成
只是想知道是否有人有使用 CUDA 和 XCode 的经验?我正在做一场噩梦。
道森
c++ - CUBLAS 内存分配错误
我尝试按如下方式分配 17338896 个浮点数元素(大约 70 mb):
但是,我收到CUBLAS_STATUS_ALLOC_FAILED
变量状态的错误消息。这是否与机器上可用的视频卡内存量(我的 128 mb)有关,或者这是否是我可以使用 cublasAlloc() 函数分配的内存量的限制(即与数量无关机器上的可用内存)?我尝试使用 cudaMalloc() 函数,但遇到了同样的问题。提前感谢您对此进行调查。
--------------添加错误再现-------------------------------- -----
cuda - CUDA:nvcc 编译需要几分钟的原因是什么?
我有一些 CUDA 代码nvcc
(嗯,技术上ptxas
)喜欢花费 10 分钟以上的时间来编译。虽然它不小,但它肯定不是很大。(约 5000 行)。
延迟似乎在 CUDA 版本更新之间来来去去,但以前只需要一分钟左右而不是 10 分钟。
当我使用该-v
选项时,在显示以下内容后似乎卡住了:
内核确实有一个相当大的参数列表和一个带有大量指针的结构,但我知道至少有一个时间点,几乎完全相同的代码在几秒钟内编译。
如果有帮助,我正在运行 64 位 Ubuntu 9.04。
有任何想法吗?
compilation - 一个非常简单的 Makefile 应该如何在 linux 下编译 Cuda
我想在 Linux 下编译一个非常基本的 hello world 级别的 Cuda 程序。我有三个文件:
- 内核:helloWorld.cu
- 主要方法:helloWorld.cpp
- 通用头文件:helloWorld.h
你能给我写一个简单的 Makefile 来用 nvcc 和 g++ 编译它吗?
谢谢,
加博尔
cuda - 在 CUDA 2.3 nvopencc 上将 u_int64_t 转换为 u_char
CUDA 2.3 V0.2.1221 / 32bit linux
嗨,我对以下代码有疑问:
make emu=1 编译和工作
-
没有仿真我得到错误:
### 第 1923 行或 ../../be/cg/cgemit.cxx 的断言失败
### 操作数 0 的寄存器类不正确
nvopencc 内部错误...状态 1
-
有人可以帮忙吗 - 我只需要一种将 u_int64_t 转换为 unsinged char [7] 的工作方式。
java - 通过 JNI 在 C 和 Java 之间传递指针
目前,我正在尝试创建一个使用 CUDA 功能的 Java 应用程序。CUDA 和 Java 之间的连接工作正常,但我还有另一个问题,想问一下,我的想法是否正确。
当我从 Java 调用本机函数时,我将一些数据传递给它,这些函数会计算一些东西并返回一个结果。是否有可能让第一个函数返回对此结果的引用(指针),我可以将其传递给 JNI 并调用另一个对结果进行进一步计算的函数?
我的想法是通过将数据保留在 GPU 内存中并仅传递对它的引用以便其他函数可以使用它来减少将数据复制到 GPU 和从 GPU 复制数据的开销。
在尝试了一段时间后,我自己想,这应该是不可能的,因为指针在应用程序结束后被删除(在这种情况下,当 C 函数终止时)。它是否正确?还是我只是在 C 语言中很糟糕才能看到解决方案?
编辑:好吧,稍微扩展一下问题(或者说得更清楚):函数结束时,JNI 本机函数分配的内存是否被释放?或者我仍然可以访问它,直到 JNI 应用程序结束或我手动释放它?
感谢您的输入 :)
optimization - CUDA:同步线程
几乎在我读到的关于使用 CUDA 编程的任何地方,都提到了 warp 中的所有线程都做同样事情的重要性。
在我的代码中,我遇到了无法避免某种情况的情况。它看起来像这样:
一些线程可能会进入一个条件,一些线程可能会同时进入,而其他线程可能不会进入任何一个。
现在为了让所有线程在条件之后再次回到“做同样的事情”,我应该在使用条件之后同步它们 __syncthreads()
吗?或者这是否以某种方式自动发生?
两个线程是否可以因为其中一个线程是一项操作而不能做同样的事情,从而为每个人毁掉它?或者是否有一些幕后的努力让他们在一个分支之后再次做同样的事情?
cuda - Using CUDA Kernels
I'm interested in using CUSP library for CUDA (available here). However, I'm either having trouble getting this library to work with my application linking with CUDA and/or CUBLAS static libraries. I'm assuming from glancing through the header and source files that I either use the kernels by building the related files as a static library file (using nvcc compiler) to be used in my application (which is built using MS Visual Studio compiler), or use the kernels directly in my application (which I don't know how it's going to work out). The CUSP library also uses METIS library as well, which I also have trouble figuring out how to install it in Windows. What would be your suggestions on the best way of using CUSP features in my application? Thanks in advance.
documentation - CUDA:内核 CRT 的文档?
我正在尝试查找可用于 CUDA 内核的所有功能的文档。
CUDA 参考手册似乎只包括主机功能,而 CUDA 编程指南只包括一些细节,例如这些功能的准确性,但不包括它们的文档。
我是否遗漏了某些内容,或者该文档根本不存在?