问题标签 [nvvp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cuda - NVIDIA Visual Profiler 可以显示并发内核执行吗?
我在许多论坛上读到 NVIDIA Visual Profiler 序列化程序以收集时序信息。
然而,在可视化分析器中,在上下文选项卡下,会提供诸如“内存副本和 GPU 上的内核之间没有时间重叠”之类的建议,或者如果内存和内核执行存在重叠,它会显示重叠时间。此外,如果您查看以下网络研讨会 - 幻灯片 6,您可以看到重叠内核的输出跟踪。
我想知道探查器是否可以显示有关并发内核执行的信息(即,如果我们使用 3 个不同的流并行运行 3 个内核,探查器是否可以显示这是否确实发生在 GPU 中)。如果是这样,我可以在视觉分析器中的什么位置获取这些信息。
optimization - Cuda 探查器显示奇怪的差距?
在开始优化之前,我试图弄清楚配置文件结果的含义。我对 CUDA 和一般分析非常陌生,我对结果感到困惑。
具体来说,我想知道在看似未被占用的计算块中发生了什么。当我从上到下查看 CPU 和 GPU 时,在大部分代码中似乎没有发生任何事情。这些看起来像没有任何内容的列,也没有Thread1
任何内容GeForce
。这是正常的吗?这里发生了什么事?
运行是在多核机器上使用 nvprof 在无负载的情况下完成的。-arch=sm_20 -m32 -g -G
GPU 代码是为 CUDA 5编译的。
c++ - Cuda 零拷贝性能
有没有人有使用零拷贝(参考这里:默认固定内存与零拷贝内存)内存模型分析 CUDA 应用程序性能的经验?
我有一个使用零拷贝功能的内核,使用 NVVP 我看到以下内容:
以平均问题大小运行内核,我得到 0.7% 的指令重放开销,所以没什么大不了的。所有这 0.7% 都是全局内存重放开销。
当我真正增加问题大小时,我得到了 95.7% 的指令重播开销,所有这些都是由于全局内存重播开销造成的。
但是,正常问题大小内核运行和非常非常大问题大小内核运行的全局加载效率和全局存储效率是相同的。我不太确定如何利用这些指标组合。
我不确定的主要事情是 NVVP 中的哪些统计数据将帮助我了解零拷贝功能的情况。关于我应该查看哪种类型的统计数据的任何想法?
python - 如何分析(视觉)通过 C 扩展在 python 包中实现的 CUDA 代码?
CUDA 可视化分析器 (nvvp) 需要一个可执行条目来进行分析,但我的 CUDA 代码是通过 C 扩展在 python 包中实现的。无论如何要在这个 python 包中进行 CUDA 分析?谢谢!
cuda - nvvp and nsight's profiler give a different result?
I want to try gst_inst_128bit instruction. In the same program, nvvp give a lot of gst_inst_128bit command executed. While in nsight's profiler, 4 times gst_inst_32bit instructions is obtained. They should be a same program. How could this situation happen?
The experiment was tried on Linux, CUDA 5.0, GTX 580. The program is only copying data from one array to another in kernel function: In main:
the kernel:
cuda - 无论如何可以避免cuda分析中的这种序列化行为?
根据CUDA 流不重叠,“分析器将序列化流以获取准确的时序数据”。现在的问题是,是否有办法避免在 cuda 分析(比如 nvvp)中出现这种序列化行为?我正在使用 Fermin M2090 和 cuda-4.0。
cuda - CUDA Visual profiler over a remote X session
I am running an Ubuntu 11.10 server, CUDA-5.0 with a GTX480 on it. I am trying to run the visual profiler remotely by using Xming and Cygwin/X on Windows 8. I can successfully run xclocks, but when I try to launch /usr/local/cuda-5.0/bin/nvvp from the putty command line, it just silently exits without any errors or warnings.
I installed the default config of Cygwin/X with xorg-server, xinit and openssh packages. Do I need any more packages?
I do not want to use the command line profiler as I need the global load/store efficiency, replay and DRAM utilization, which are much more visible in the visual profiler.
Has anyone tried this before? I would appreciate any help.
cuda - 内核中的 CUDA 分析
是否有任何选项来分析 CUDA 内核?不是整体,而是一部分。我有一些设备功能调用,我想测量它们的时间。是否有我可以设置的标志/事件/指令,然后它将在 NVIDIA Visual Profiler 中可见?还是我需要通过插入cudaEventCreate
和类似功能手动完成。
cuda - nvprof 打开跟踪格式或 slog2
我想生成我的 cuda 程序的跟踪并查看它。所以我使用以下命令运行它
它以文本格式打印跟踪,它有自己的理解限制。有人提到我可以将输出保存到文本文件中,稍后可以使用 nvvp 通过 X 会话或本地查看。
更让我痛苦的是,由于种种原因,现有的 nvvp 安装都不能在远程主机上运行。在我的本地mac中,当我安装时,上帝只知道它安装在哪里,而“finder”仍然无法追踪。因此,我需要将 nvprof 的输出转换为可以通过 jumpshot(TAU 也使用)显示的内容,可以是 OTC opentrace 格式或 slog2(本机 jumshot 格式)。
最终,我寻求,执行跟踪任何可能的可视化表示。
cuda - 是否可以在 NVVP 上自动重复多次执行?
我正在尝试从我的应用程序中提取一些指标,并且需要多次执行它并取指标的平均值。
我在谷歌上搜索,但什么也没找到,stackoverflow 上也没有。
谢谢。