“tesla”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

153 浏览

cuda - Cuda，与卡的第一次连接（Lost time）

当我启动我的程序并与我的卡（Tesla K20c）进行通信时，我在代码中第一次调用卡时浪费了很多时间，我不知道为什么。似乎每次他都试图搜索所有可能的卡片。如果我使用 cudasetdevice() 来定义我的卡，我也会遇到同样的问题。

用户时间（秒）：1.420

系统时间（秒）：4.660

经过时间（秒）：6.490

系统时间代表这个丢失的时间。当我在另一台使用 GeForce GTX 560 Ti（功能较弱且较旧的显卡）的计算机上运行我的程序时，您可以看到系统时间正常。

用户时间（秒）：1.620

系统时间（秒）：0.700

经过时间（秒）：3.120

这个问题是程序时间的两倍，我会理解为什么。这是我第一次遇到这种卡问题。

是因为卡太新而且 cuda 库还没有优化吗？

我使用版本 5.0 cuda。

2013-08-20T07:22:26.413

0 投票

0 回答

179 浏览

air - 带有 NVIDIA Tesla GPU 的 AIR 3D Amazon 渲染服务器无法正常工作

我们有一个 Adobe AIR Stage3D 应用程序，它可以渲染 3D 对象并让用户查看它们。如果用户没有安装 Flash，我们想为后备创建一个渲染服务器。最简单的方法是使用相同的代码库在 Windows 服务器上生成 3D 图像。我们想在配备 NVIDIA Tesla M2050 GPU-s 和 Windows 2012 的 Amazon 服务器上测试此回退，以查看性能。不幸的是，只有软件渲染模式可用，无法访问 gpu。driverInfo 是：Software Hw_disabled=unavailable 我们还尝试在 Session 0 中作为后台服务运行进程作为服务：http: //www.coretechnologies.com/products/AlwaysUp/Apps/RunAdobeAIRAsAService.html 但我们没有运气。带有 TCC 驱动器的 NVIDIA Tesla M2050 GPU 允许在会话 0 中使用 GPU。我尝试将驱动程序更新到最新版本，但仍然没有成功。

知道我们如何在亚马逊服务器上测试 Adobe AIR 3D 功能作为服务，或者它为什么不工作：

配置是：

窗口 2012 服务器标准 64
2db 英特尔至强 X5570 2.93Ghz
22GB 内存
2db 英伟达 Tesla M2050
土坯空气 3.8

谢谢你

air 3d nvidia windows-server-2012 tesla

2013-09-05T13:02:08.163

0 投票

1 回答

1731 浏览

eclipse - cudaMemcpyToSymbol 使用细节

我正在尝试将数据结构从主机移动到 Tesla C1060（计算 1.3）上的常量内存。具有以下功能：

数据结构（在头文件中）：

问题是这些值似乎没有被复制到 GPU 中的常量内存中。

我是否需要像cudaMemcpyToSymbol 中所述重新声明 do not__constant__ copy data 。我应该在某处使用吗？ \\mem.cu
extern

没有错误，值始终设置为 0。

eclipse cuda memcpy nsight tesla

2013-10-28T22:28:57.990

0 投票

1 回答

1324 浏览

windows - cudaGetDeviceCount 返回 1 而不是 2

我有一个由 2 个 Tesla M2050 组成的 gpu 集群，当我执行我的代码时，cudaGetDeviceCount 只返回 1。如果我尝试使用 cudaSetDevice 设置设备 1，它会给我这个错误：无效的设备序号。在 Windows 的设备管理器中列出了这两个设备。如果需要，这是我的源代码

任何帮助，将不胜感激

编辑：deviceQuery.exe 的输出

windows cuda tesla

2013-11-12T09:47:30.387

0 投票

2 回答

5236 浏览

cuda - gpu上的最大线程数

我正在使用 TESLA T10 设备，它有 2 个 cuda 设备，一个块中的最大线程数是 512，每个维度的最大线程数是 (512,512,64)，最大网格大小是 (65535,65535,1)，它有 30每个 cuda 设备上的多处理器。

现在我想知道我可以并行运行多少个线程。我阅读了以前的解决方案，但没有一个能解决我的疑问。从以前的读取 =(30)*512 线程我可以并行运行（maxNoOfMultiprocessor * maxThreadBlockSize）

但是当我启动 512 个线程的 32 个块时，它仍然在工作，这怎么可能？？？我不了解每个维度中的这些最大线程以及最大网格尺寸部分，请举例说明.......提前致谢

cuda gpu tesla

2013-11-16T13:47:27.907

0 投票

1 回答

253 浏览

c - 并发内核启动示例 - CUDA

我正在尝试为一个非常复杂的 CUDA 内核实现并发内核启动，所以我想我会从一个简单的例子开始。它只是启动一个内核来减少总和。很简单。这里是：

编译如下：

我正在使用单个 Tesla K20X。

当我运行这个简单的例子时，我得到以下输出：

因此，如您所见，每个内核都得到了正确的结果，大约需要 4.5 秒，这是我在较早的单内核版本中得到的结果。伟大的！但是，从 arun 输出中可以看出，挂墙时间实际上是 10 秒左右，这比单内核版本要多得多。因此，看起来内核要么没有并行启动，要么我几乎没有从并发内核启动中获得预期的加速（2 倍）。

tl;博士这个问题：

我的代码示例中是否缺少任何内容？内核实际上是并行启动的吗？
Tesla K20X 我应该期待什么样的加速？内核不应该完全并行运行，同时完成两倍的工作吗？我可以期望有多少个内核可以有效地并行运行？

谢谢你的帮助。

c cuda parallel-processing gpgpu tesla

2014-04-14T02:17:33.673

0 投票

0 回答

708 浏览

linux - 在 Linux 上使用 OpenGL 和无头 Tesla K20X 进行离屏渲染

对于 Windows，我必须使用 nvidia-smi 切换到 WDDM 模式，这会对计算性能产生负面影响，但允许您使用 OpenGL。不幸的是，这在 Linux 上不起作用，并且在 Linux 上运行命令时给我一个错误，即该平台不支持它。到目前为止，我似乎找不到在 Linux 上启用此功能的任何方法。

linux opengl nvidia tesla

2014-05-12T18:11:27.810

0 投票

1 回答

526 浏览

opencl - OpenCL：异步命令提交太慢

我的 OpenCL 程序（不要害怕，这是为 3D CFD 自动生成的代码）表现出奇怪的行为——在 opencl_enq_job_* 程序 (opencl_code.c) 中花费了大量时间，其中只有异步 OpenCL 命令：

在程序输出中，opencl_enq_job_*所花费的时间如下：

OCL废品：0.60456248727985751

这意味着在该程序中浪费了 60% 的时间。

大部分时间（92%）花在 clEnqueueReadBuffer 函数上，约 5% 用在 clSetEventCallback 上。

为什么这么多？这段代码有什么问题？

我的配置：

更新：Nvidia 接受这是一个错误。

更新 1：在我的笔记本电脑（MBP15、AMD GPU、Apple OpenCL）上，程序显示出类似的行为，但在 clFlush 中等待更多（>99%）。在 CUDA SDK 上，该程序在没有 clFlush 的情况下工作，在没有 clFlush 的 Apple 程序上挂起（提交的任务永远不会完成）。

opencl nvidia tesla

2014-07-29T18:50:20.400

0 投票

1 回答

1262 浏览

gpu - NVIDIA Tesla 中的单精度和双精度之间是否存在关系？

Tesla K20 型号单精度浮点性能峰值约为 3.52 TFlops，但双精度为 1.17 TFlops，因此比率为 3。Tesla K20X 有 3.95 和 1.31，Tesla K40 有 4.29 和 1.43 TFlops，比率似乎重复。我的问题是比率为 3 而不是 2 是否有原因，这对我来说似乎是合乎逻辑的，因为单精度和双精度之间的差异。我正在学习 GPUS 和 GPGPUS，所以我不太了解它。

在这个 pdf 的第二页有一个规格表。 NVIDIA-Tesla-Kepler-Family-Datasheet.pdf

gpu nvidia tesla

2014-09-03T20:41:28.740

0 投票

2 回答

494 浏览

opencl - OpenCL 和特斯拉 M1060

我正在使用 Tesla m1060 进行 GPGPU 计算。它具有以下规格：

当我使用 OpenCL 时，我可以显示以下板子信息：

如何将 GPU 卡信息与 OpenCL 内存信息相关联？

例如：

“内存交互”是什么意思？它是否链接了工作项？
如何将 GPU 的“240 核”与工作组/项目相关联？
如何将工作组映射到它（要使用的工作组数量是多少）？

谢谢

编辑：

在以下答案之后，我仍然不清楚一件事：

我使用的内核的CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE值为 32。

但是，我的设备的CL_DEVICE_MAX_COMPUTE_UNITS值为 30。

在 OpenCL 1.1 Api 中，它是这样写的（第 15 页）：

计算单元：一个 OpenCL 设备有一个或多个计算单元。工作组在单个计算单元上执行

似乎有些东西在这里不连贯，或者我没有完全理解工作组和计算单元之间的区别。

如前所述，当我将工作组的数量设置为 32 时，程序失败并出现以下错误：

Entry function uses too much shared data (0x4020 bytes, 0x4000 max).

值 16 有效。

附录

这是我的内核签名：

在主机代码部分：

opencl gpu tesla

2014-11-21T10:59:24.633

问题标签 [tesla]

Reference