问题标签 [cudpp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cuda - CUDA中的高性能前缀求和/扫描功能,寻找推力,cuDPP库替代
我正在为我在 CUDA 中的项目寻找高性能多扫描/多前缀和(一个内核执行中的多行)函数。
我已经尝试过 Thrust 库中的那个,但它太慢了。在使用 nvcc 调试标志 (-g -G) 编译后也会导致崩溃。
在 Thrust 失败后,我专注于 cuDPP 库,它曾经是 CUDA 工具包的一部分。cuDPP 性能非常好,但库不是最新的 cuda 5.5,并且在使用内存检查器进行调试时,cudppMultiScan() 函数中存在一些全局内存违规问题。(cuda 5.5,nsight 3.1,视觉工作室 2010,gtx 260 cc 1.3)
有人知道用什么来代替这两个库吗?
R。
cuda - 使用 CUDPPHandle 时出错
我正在以初学者的身份从事 CUDA 工作,并试图执行预先编写的代码,编译时每次使用 CUDPPHandle 都会出错...例如
在最后一行给出以下错误:
- “CUDPPHandle *”类型的参数与“CUDPPHandle”类型的参数不兼容
- 不存在从“CUDPPConfiguration”到“CUDPPHandle *”的合适转换函数
- 不存在合适的构造函数来将“int”转换为“CUDPPConfiguration”
- 函数调用中的参数太少
我正在使用“nvcc -arch sm_20”在 tesla C2075 上编译,请帮助....
sorting - K10 GPU 上的基数排序性能
我正在为大型数组(数百个 M 元素)在 GPU 上寻找一种排序算法的快速实现。我已经尝试过 cudpp 了,每秒得到 450M 到 500M 4 字节密钥 + 4 字节字段。这看起来还不错,但是仍然在 CPU 可以做的事情的范围内。然后我偶然发现了这个:https ://code.google.com/p/back40computing/wiki/RadixSorting在 GTX480 上声称 700M 键 + 值/秒。我说——哇!- 我正在运行 Tesla K10,所以更强大的硬件,必须试试这个!得到了代码,为 nvidia 能力 30 编译它,试了一下......我得到的数字或多或少与 cudpp 代码相同。深入挖掘,看起来 cudpp 使用了 Thrust 的基数排序,并且 bc40 算法已合并到 Thrust 中,所以总而言之,我很可能运行相同的代码。我一直在使用 bc40 代码上的一些参数(块大小、网格大小等),但只会让事情变得更糟。那么问题来了——有没有人在不同的(更强大的)GPU 上测试过 cudpp 基数排序或 bc40 基数排序?任何接近 700M/sec 的键+值?有什么神奇的按钮可以按吗?nsight 分析器报告了 25% 的 GPU 使用率(并且共享内存访问成为瓶颈)。
cuda - CUDA 7.0 中是否缺少 libcudpp.so?
我正在使用 jCuda 并尝试编译并运行其示例之一(JCudppHashSample),该示例可在 Ubuntu 14.04 和 CUDA 7.0上的jcuda上获得。
但是在编译时库 jcudpp 说没有可用的 libcudpp。我想知道cuda sdk是否缺少它?
我不喜欢获取其来源并手动制作的想法。