问题标签 [nsight-compute]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
132 浏览

cuda - 使用张量核心时未注册共享内存负载

我正在尝试在使用 Turing 架构设计的 GPU 上使用 Tensor Cores 将大小为 8x8 的块相乘。为此,我使用了 WMMA API 和大小为 16x16 的片段。我的假设是共享内存带宽将被浪费,因为加载到片段中的大多数数据并不代表有用的信息。在尝试量化时,我遇到了以下问题:使用 wmma::load_matrix_sync 的共享内存负载甚至没有在 Nsight Compute 上报告。为了测试这一点,我正在使用这个内核:

Nsight Compute 报告共享内存存储,但不报告加载。这里发生了什么?我尝试了几种变体,但它仍然显示 0 负载。

0 投票
1 回答
151 浏览

cuda - 哪些 GPU 执行依赖项具有固定延迟(导致“等待”停顿)?

借助最近的 NVIDIA 微架构,出现了一种新的 (?) 翘曲停止原因/翘曲调度程序状态分类法。其中之一

等待:Warp 因等待固定延迟执行依赖而停止。

正如@GregSmith解释的那样,固定延迟指令是:“数学,按位[和] 寄存器移动”。但是什么是固定延迟的“执行依赖”?这些只是“等待别人的固定延迟指令结束,然后我们才能自己发出”?

0 投票
1 回答
118 浏览

cuda - 使用 ncu 分析统一内存中的 pagefault

是否有任何选项可以使用 Nsight Compute (NCU) 分析统一虚拟内存 CUDA 应用程序?例如,我想知道处理页面错误和迁移所花费的时间。

0 投票
1 回答
130 浏览

cuda - 使用 Nsight Compute 过滤部分内核名称

在使用 NVIDIA Nsight Compute 2021.2.1 在我的程序中分析内核时,我试图过滤部分名称。我相信以前使用子字符串或正则表达式来匹配多个内核是有效的。但是,当我现在尝试时,除非我将该字段留空或写下全名,否则我不会得到任何结果。在此处输入图像描述.

如何通过 GUI 完成此操作?

0 投票
1 回答
327 浏览

cuda - Nsight Compute 说:“此设备不支持分析” - 为什么?

我有一台配备 NVIDA GTX 1050 Ti GPU(计算能力 6.1)的机器,并试图在我用 CUDA 11.4 构建的程序中分析内核。我的操作系统发行版是 Devuan GNU/Linux 4 Chimaera (~= Debian 11 Bullseye)。

NSight Compute 启动我的程序,并在 API 调用后向我显示 API 调用,但是当我第一次启动内核时,它在 API 调用列表的 Details 列中给我一条错误消息:

为什么?我的设备出了什么问题?是权限问题吗?

0 投票
0 回答
44 浏览

c++ - Nsight 无法捕获所有无绑定图像

我正在使用稀疏体素八叉树,上面是测试代码。我使用两个大的 3d 纹理(256 * 256 * 256 和 512 * 512 * 512)来存储八叉树节点邻域信息和砖值。该演示工作正常,但是当我使用 Nsight 调试测试代码时,Nsight 无法捕获两个无绑定图像,我只能在 Nsight 配置文件窗口中看到第一个纹理。 在此处输入图像描述

但是 Nsight 实际上捕获了这两个 ssbo 对象。 在此处输入图像描述 黄色的线是两个纹理句柄的 ssbo。

平台是
显卡:GTX 1070 Ti
Ram:16GB
CPU:ryzen 2600x
系统:windows 10 Build 19043
Compiler Env:vc-142
OpenGL Version:4.5
我想知道Nsight无法捕获所有无绑定纹理的原因,有没有测试代码错误?

0 投票
0 回答
38 浏览

cuda - 如何理解像 l1tex__data_bank_conflicts_pipe_lsu_mem_global 这样的指标?

在加载/存储期间访问共享内存时会发生银行冲突。当我使用如下所示的代码时:

在我的程序中测试的一些指标的结果如下所示:

谁能帮我解释为什么这些指标像l1tex__data_bank_conflicts_pipe_lsu_mem_globalandl1tex__data_bank_conflicts_pipe_lsu_mem_global_op_st等。不起作用,以及如何理解像它们这样的指标?

0 投票
0 回答
27 浏览

cuda - 使用 cuda 内存池时,在 Pascal 上使用 nsight 计算分析代码失败

我想使用 Nsight Compute for Pascal GPU 来分析使用 CUDA 内存池的程序。我正在使用 Linux,CUDA 11.5,驱动程序 495.46。Nsight Compute 是 2019.5.0 版本,是最后一个支持 Pascal 的版本。

考虑以下示例程序

没有分析器它运行良好。

使用分析器运行时,使用池 API 会返回错误cudaErrorCallRequiresNewerDriver

是否可以使用 nsight 计算在 Pascal 上分析该程序?