问题标签 [nsight]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
946 浏览

cuda - 如何在远程服务器上启用 TCC 的设备上调试 CUDA 代码?

我想在我们即将成为生产服务器的开发 PC 上启动远程调试会话。在服务器上,我使用远程桌面启动 NSight,然后尝试在本地计算机上启动 CUDA 调试(之前将服务器作为目标)。结果是,调试会话断开连接并显示“远程系统已通过远程桌面登录。WDDM 适配器将无法调试”。

这是预期的行为、错误、错误的配置吗?如果没有涉及远程桌面的解决方案,我该如何启动 NSight 监视器,以便我可以启动调试会话?

在目标服务器上,我有两个 Tesla K10 和一个 Quadro FX(用于显示)。所有 Tesla 设备(实际上是四个)都显示 TCC 已打开。

我正在使用 NSight 3.0、CUDA 5.0 和 Visual Studio 2008(后两者仅在开发工作站上)。

最后一件事:将应用程序复制到服务器并通过远程桌面执行工作正常。

0 投票
1 回答
4041 浏览

nsight - Nsight 远程调试器设置

我正在尝试设置一个远程 Nsight v2.2 调试器,仅用于 GPU 调试(无 CUDA)。我已经按照这个Nvidia pdf来设置远程目标机器和开发机器。一切都已启动并运行,但两者之间的通信不正常。我收到诸如 MSVSMON.exe 未在远程计算机上运行等错误。我不确定所需的确切设置。应该是什么,

  • VS2010项目设置
  • Nsight Monitor(远程机器)设置
  • VS2010和开发机中的Nsight设置。
0 投票
1 回答
608 浏览

cuda - nvvp and nsight's profiler give a different result?

I want to try gst_inst_128bit instruction. In the same program, nvvp give a lot of gst_inst_128bit command executed. While in nsight's profiler, 4 times gst_inst_32bit instructions is obtained. They should be a same program. How could this situation happen?

The experiment was tried on Linux, CUDA 5.0, GTX 580. The program is only copying data from one array to another in kernel function: In main:

the kernel:

0 投票
3 回答
3498 浏览

linux - NSight Profiler 信号 139

我正在尝试使用 NSight 中的内置分析器来分析我的程序,但分析会话在启动后立即终止,并且我收到反馈“警告:应用程序收到信号 139”。这是什么意思?

我还收到以下错误消息:

无法读取整个会话时间线。显示的时间线可能为空或不完整,因为应用程序在退出之前中止或未能刷新配置文件数据。应用程序应在退出之前调用 cudaDeviceReset() 以确保所有配置文件数据都已刷新。

0 投票
3 回答
2800 浏览

visual-studio-2010 - 在 Visual Studio 中调试 cuda 文件

我有一个 cpp 函数(function.cpp”),我“mex”-ed。然后我在 Visual Studio 中打开 function.cpp 文件并将 Visual Studio 附加到正在运行的 matlab 进程。

当我在 matlab 中调用该函数时,我可以在 function.cpp 文件中设置断点并逐步观察变量。

当我将函数更改为 cuda 文件 (function.cu) 时,调试过程会中断。按照上述过程,我仍然可以在 function.cu 内停止,但我看不到任何变量。当我尝试“观察”一个变量时,它显示“错误符号..未找到”

我在visual studio中安装了nsight。问题:我如何在调试模式下观察文件 function.cu 中的变量,就像我对 function.cpp 文件所做的那样。这可能吗 ?

请注意,function.cu 不在项目中。它只是一个带有函数 cpp 代码的独立文件(比如 somefunction(){})。出于调试目的,我在 Visual Studio 中打开它。我正在使用“nvmex -g wrapper.cu”在 matlab 中编译 function.cu 文件 wrapper.cu 是一个 matlab mexfunction 包装器,它调用写在 function.cu 中的 somefunction()

0 投票
2 回答
1831 浏览

eclipse - 使用 Nsight Eclipse 版时如何使用 gcc 进行编译?

我在 Nvidia 的 Nsight 中有一个小项目,它为我创建了 makefile。我想使用一些 SSE 指令,并想用 gcc 而不是 nvcc 编译项目中的 cpp 文件。

有没有办法配置 Nsight 来做到这一点,还是我必须手动编写 Makefile?

编辑: .cu 文件当然应该用 nvcc 编译。

0 投票
0 回答
341 浏览

cuda - Nsight 调试器不去设备功能

我有一个带有擎天柱技术的笔记本。显卡。所以,我在我的 ubuntu 12.10(64 位)上安装了 Bumblebee。我已经安装了 CUDA 5,它使用“optirun”运行。但是我在 Nsight (eclipse) 中调试时遇到问题;我可以调试主机代码,但它会跳过设备的功能!

我看过一些相关的帖子,但我的问题还没有解决。我试图用“optirun”运行 Nsight;并且还在 gdb 之前添加了 optirun。

请帮我。

谢谢

0 投票
3 回答
1817 浏览

concurrency - 为什么我无法使用 GTX 480 和 CUDA 5 重叠数据传输和计算?

我试图将内核执行与 memcpyasync 重叠,但它不起作用。我遵循编程指南中的所有建议,使用固定内存、不同的流等。我看到内核执行确实重叠,但它与内存传输无关。我知道我的卡只有一个复制引擎和一个执行引擎,但是执行和传输应该重叠,对吧?

似乎“复制引擎”和“执行引擎”总是执行我调用函数的顺序。工作包括执行 [HtoD x2, Kernel, DtoH] 的 4 个流。如果我在每个流上发出 HtoDx2,Kernel,DtoH 系列,我会在分析器中看到 stream2 HtoD 第一个操作在第一个 DtoH 操作结束之前不会开始。如果我首先在每个流上发布 HtoD,然后是第二个 HtoD,然后是内核,然后是 DtoH(宽度),我看不到重叠,并且发布顺序也由 GPU 强制执行。

我已经尝试过使用 CUDA SDK 中给出的 simpleStreams 示例,我也看到了相同的行为。

我附上了一些屏幕截图,显示了 VS2008 的视觉分析器和 Nsight 中的问题。

附言。我没有设置 CUDA_LAUNCH_BLOCKING 环境

简单流可视化分析器 简单流可视化分析器

MyApp Nsight 时间线广度优先 MyApp Nsight 时间线广度优先

MyApp Nsight 时间线深度优先 MyApp Nsight 时间线深度优先

编辑

放置额外的 x4 内核(总共 2HtoD,5 个内核,每个流 1DtoH)--> 如果我在使用和不使用 --concurrent-kernels-off 的情况下运行 nvprof,则经过的时间是相同的。如果我设置 env CUDA_LAUNCH_BLOCKING=1,那么我会看到(从命令行)7.5% 的性能提升!

系统规格:

  • Windows 7的
  • 第一个 PCI-E 插槽中的 NVIDIA 6800 VGA
  • 第二个 PCI-E 插槽中的 GTX480
  • 英伟达驱动程序:306.94
  • 视觉工作室 2008
  • CUDA v5.0
  • 可视化探查器 5.0
  • Nsight 3.0
0 投票
2 回答
2681 浏览

cuda - CUDA 5 NSIGHT 设置编译标志

为了为 Kepler K20 编译项目,我们需要设置-rdc=true标志。我们如何在 nsight eclipse 版本中设置这个标志?我的版本是 CUDA 5.K20。nsight eclipse 版

0 投票
2 回答
421 浏览

cuda - Nsight 在远程调试时跳过(忽略)VS10 Cuda 中的断点,但如果在目标机器上本地调试它工作正常

当我在主机上远程调试我的 cuda 项目时,它会忽略断点但完全执行。但是当我在目标机器上本地调试我的项目时,它工作正常。

我检查了我的驱动程序版本是 301.42,我的 nsight 版本是 2.2

我的目标机器有 Geforce 8600GT,主机有 Geforce 6200 turboCache。我认为我的主机的 GPU 没有启用 TCC。

nsight 分析活动在本地和远程都可以正常工作,但 cuda 调试只能在本地模式下工作