问题标签 [tesla]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cuda - Cuda,与卡的第一次连接(Lost time)
当我启动我的程序并与我的卡(Tesla K20c)进行通信时,我在代码中第一次调用卡时浪费了很多时间,我不知道为什么。似乎每次他都试图搜索所有可能的卡片。如果我使用 cudasetdevice() 来定义我的卡,我也会遇到同样的问题。
用户时间(秒):1.420
系统时间(秒):4.660
经过时间(秒):6.490
系统时间代表这个丢失的时间。当我在另一台使用 GeForce GTX 560 Ti(功能较弱且较旧的显卡)的计算机上运行我的程序时,您可以看到系统时间正常。
用户时间(秒):1.620
系统时间(秒):0.700
经过时间(秒):3.120
这个问题是程序时间的两倍,我会理解为什么。这是我第一次遇到这种卡问题。
是因为卡太新而且 cuda 库还没有优化吗?
我使用版本 5.0 cuda。
air - 带有 NVIDIA Tesla GPU 的 AIR 3D Amazon 渲染服务器无法正常工作
我们有一个 Adobe AIR Stage3D 应用程序,它可以渲染 3D 对象并让用户查看它们。如果用户没有安装 Flash,我们想为后备创建一个渲染服务器。最简单的方法是使用相同的代码库在 Windows 服务器上生成 3D 图像。我们想在配备 NVIDIA Tesla M2050 GPU-s 和 Windows 2012 的 Amazon 服务器上测试此回退,以查看性能。不幸的是,只有软件渲染模式可用,无法访问 gpu。driverInfo 是:Software Hw_disabled=unavailable 我们还尝试在 Session 0 中作为后台服务运行进程作为服务:http: //www.coretechnologies.com/products/AlwaysUp/Apps/RunAdobeAIRAsAService.html 但我们没有运气。带有 TCC 驱动器的 NVIDIA Tesla M2050 GPU 允许在会话 0 中使用 GPU。我尝试将驱动程序更新到最新版本,但仍然没有成功。
知道我们如何在亚马逊服务器上测试 Adobe AIR 3D 功能作为服务,或者它为什么不工作:
配置是:
- 窗口 2012 服务器标准 64
- 2db 英特尔至强 X5570 2.93Ghz
- 22GB 内存
- 2db 英伟达 Tesla M2050
- 土坯空气 3.8
谢谢你
eclipse - cudaMemcpyToSymbol 使用细节
我正在尝试将数据结构从主机移动到 Tesla C1060(计算 1.3)上的常量内存。具有以下功能:
数据结构(在头文件中):
问题是这些值似乎没有被复制到 GPU 中的常量内存中。
我是否需要像cudaMemcpyToSymbol 中所述重新声明 do not__constant__
copy data 。
我应该在某处使用吗? \\mem.cu
extern
没有错误,值始终设置为 0。
windows - cudaGetDeviceCount 返回 1 而不是 2
我有一个由 2 个 Tesla M2050 组成的 gpu 集群,当我执行我的代码时,cudaGetDeviceCount 只返回 1。如果我尝试使用 cudaSetDevice 设置设备 1,它会给我这个错误:无效的设备序号。在 Windows 的设备管理器中列出了这两个设备。如果需要,这是我的源代码
任何帮助,将不胜感激
编辑:deviceQuery.exe 的输出
cuda - gpu上的最大线程数
我正在使用 TESLA T10 设备,它有 2 个 cuda 设备,一个块中的最大线程数是 512,每个维度的最大线程数是 (512,512,64),最大网格大小是 (65535,65535,1),它有 30每个 cuda 设备上的多处理器。
现在我想知道我可以并行运行多少个线程。我阅读了以前的解决方案,但没有一个能解决我的疑问。从以前的读取 =(30)*512 线程我可以并行运行(maxNoOfMultiprocessor * maxThreadBlockSize)
但是当我启动 512 个线程的 32 个块时,它仍然在工作,这怎么可能???我不了解每个维度中的这些最大线程以及最大网格尺寸部分,请举例说明.......提前致谢
c - 并发内核启动示例 - CUDA
我正在尝试为一个非常复杂的 CUDA 内核实现并发内核启动,所以我想我会从一个简单的例子开始。它只是启动一个内核来减少总和。很简单。这里是:
编译如下:
我正在使用单个 Tesla K20X。
当我运行这个简单的例子时,我得到以下输出:
因此,如您所见,每个内核都得到了正确的结果,大约需要 4.5 秒,这是我在较早的单内核版本中得到的结果。伟大的!但是,从 arun 输出中可以看出,挂墙时间实际上是 10 秒左右,这比单内核版本要多得多。因此,看起来内核要么没有并行启动,要么我几乎没有从并发内核启动中获得预期的加速(2 倍)。
tl;博士这个问题:
- 我的代码示例中是否缺少任何内容?内核实际上是并行启动的吗?
- Tesla K20X 我应该期待什么样的加速?内核不应该完全并行运行,同时完成两倍的工作吗?我可以期望有多少个内核可以有效地并行运行?
谢谢你的帮助。
linux - 在 Linux 上使用 OpenGL 和无头 Tesla K20X 进行离屏渲染
对于 Windows,我必须使用 nvidia-smi 切换到 WDDM 模式,这会对计算性能产生负面影响,但允许您使用 OpenGL。不幸的是,这在 Linux 上不起作用,并且在 Linux 上运行命令时给我一个错误,即该平台不支持它。到目前为止,我似乎找不到在 Linux 上启用此功能的任何方法。
opencl - OpenCL:异步命令提交太慢
我的 OpenCL 程序(不要害怕,这是为 3D CFD 自动生成的代码)表现出奇怪的行为——在 opencl_enq_job_* 程序 (opencl_code.c) 中花费了大量时间,其中只有异步 OpenCL 命令:
在程序输出中,opencl_enq_job_*所花费的时间如下:
OCL废品:0.60456248727985751
这意味着在该程序中浪费了 60% 的时间。
大部分时间(92%)花在 clEnqueueReadBuffer 函数上,约 5% 用在 clSetEventCallback 上。
为什么这么多?这段代码有什么问题?
我的配置:
更新:Nvidia 接受这是一个错误。
更新 1:在我的笔记本电脑(MBP15、AMD GPU、Apple OpenCL)上,程序显示出类似的行为,但在 clFlush 中等待更多(>99%)。在 CUDA SDK 上,该程序在没有 clFlush 的情况下工作,在没有 clFlush 的 Apple 程序上挂起(提交的任务永远不会完成)。
gpu - NVIDIA Tesla 中的单精度和双精度之间是否存在关系?
Tesla K20 型号单精度浮点性能峰值约为 3.52 TFlops,但双精度为 1.17 TFlops,因此比率为 3。Tesla K20X 有 3.95 和 1.31,Tesla K40 有 4.29 和 1.43 TFlops,比率似乎重复。我的问题是比率为 3 而不是 2 是否有原因,这对我来说似乎是合乎逻辑的,因为单精度和双精度之间的差异。我正在学习 GPUS 和 GPGPUS,所以我不太了解它。
在这个 pdf 的第二页有一个规格表。 NVIDIA-Tesla-Kepler-Family-Datasheet.pdf
opencl - OpenCL 和特斯拉 M1060
我正在使用 Tesla m1060 进行 GPGPU 计算。它具有以下规格:
当我使用 OpenCL 时,我可以显示以下板子信息:
如何将 GPU 卡信息与 OpenCL 内存信息相关联?
例如:
- “内存交互”是什么意思?它是否链接了工作项?
- 如何将 GPU 的“240 核”与工作组/项目相关联?
- 如何将工作组映射到它(要使用的工作组数量是多少)?
谢谢
编辑:
在以下答案之后,我仍然不清楚一件事:
我使用的内核的CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE
值为 32。
但是,我的设备的CL_DEVICE_MAX_COMPUTE_UNITS
值为 30。
在 OpenCL 1.1 Api 中,它是这样写的(第 15 页):
计算单元:一个 OpenCL 设备有一个或多个计算单元。工作组在单个计算单元上执行
似乎有些东西在这里不连贯,或者我没有完全理解工作组和计算单元之间的区别。
如前所述,当我将工作组的数量设置为 32 时,程序失败并出现以下错误:
Entry function uses too much shared data (0x4020 bytes, 0x4000 max).
值 16 有效。
附录
这是我的内核签名:
在主机代码部分: