“flops”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

965 浏览

c++ - 在 FLOPS 中估计 GPU 的效率（CUDA SAMPLES）

在我看来，我并不完全理解 FLOPS 的概念。在 CUDA SAMPLES 中，有矩阵乘法示例 (0_Simple/matrixMul)。在此示例中，每个矩阵乘法的 FLOP（浮点运算）数通过以下公式计算：

所以，这意味着，为了将矩阵乘以A(n x m) ，B(m x k)我们需要做：2*n*m*k浮点运算。

但是，为了计算结果矩阵的 1 个元素C (n x k)，必须执行m乘法和(m-1)加法运算。因此，操作总数（计算n x k元素）是m*n*k乘法和(m-1)*n*k加法。

当然，我们也可以设置加法的次数为m*n*k，总运算次数为2*n*m*k，一半是乘法，一半是加法。

但是，我想，乘法比加法计算成本更高。为什么这两种操作混在一起？计算机科学总是如此吗？如何考虑两种不同类型的操作？

对不起我的英语不好）

c++cuda flops

2014-12-16T17:16:54.033

0 投票

2 回答

1284 浏览

c - 确定我们 ASM 程序的 FLOPS

我们必须实现一个 ASM 程序，以将坐标方案格式 (COOS) 和压缩行格式 (CSR) 中的稀疏矩阵相乘。现在我们已经实现了所有这些算法，我们想知道与通常的矩阵乘法相比，它们的性能提高了多少。我们已经实现了代码来测量所有这些算法的运行时间，但现在我们决定我们还想知道每秒可以执行多少次浮点运算 (FLOPS)。关于如何测量/计算这个的任何建议？

这里有一些关于所用系统的背景信息：

我们现在的第一个想法是实现一种 FPO 计数器，我们在每次浮点运算（算术运算以及比较和移动运算）之后递增，但这意味着我们必须在整个代码中插入递增运算，这也会减慢关闭应用程序...有谁知道是否有某种硬件计数器可以计算浮点运算的数量，或者是否存在某种性能工具可以用来监视我们的程序并测量 FPO 的数量。任何建议或指示将不胜感激。

这是使用计数方法评估矩阵乘法的 FLOP。我们首先测量了我们感兴趣的每条指令的运行时间，而不是插入的计数器，然后我们计算了每秒浮点操作的数量。用于矩阵乘法的每秒浮点运算

c assembly arm neon flops

2015-01-25T23:41:22.320

0 投票

1 回答

204 浏览

cycle - 如何计算 1 个核心的浮点加法的周期/问题？

（不是作业！！）这是我的处理器：Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz

核心数：2

我正在阅读 FLOPS 我遇到了一个问题，询问计算周期 / 问题为 1 个核心的浮点加法。（我知道我拥有的核心数量）我应该研究我的机器的架构并计算周期吗？？？）

我不确定什么是问题（指令？？），您将如何计算周期？如果有人可以提示我，我将不胜感激。

谢谢你。

cycle flops

2015-03-01T22:36:22.897

0 投票

2 回答

2101 浏览

c - 计算 FLOP

我正在编写一个程序来计算我的 CPU 执行一个“FLops”所需的持续时间。为此，我编写了下面的代码

我重复相同操作的问题。编译器不会优化这种“事物”吗？如果是这样，我必须做什么才能获得正确的结果？

我没有使用“rand”函数，所以它不会与我的结果冲突。

c compiler-optimization flops

2015-03-03T19:27:40.060

0 投票

1 回答

300 浏览

sse - 对于 Intel Haswell 上的 XMM/YMM FP 操作，可以使用 FMA 代替 ADD 吗？

这个问题适用于 Haswell 上带有 XMM/YMM 寄存器的打包单精度浮点运算。

因此，根据 Agner Fog 整理的令人敬畏的、令人敬畏的 表，我知道 MUL 可以在端口 p0 和 p1 上完成（recp thruput 为 0.5），而仅 ADD 仅在端口 p1 上完成（recp thruput 为 1 ）。我可以排除这个限制，但我也知道 FMA 可以在端口 p0 或 p1 上完成（recp thruput 为 0.5）。因此，当 FMA 可以使用 p0 或 p1 并且它同时执行 ADD 和 MUL 时，为什么普通的 ADD 将仅限于 p1，这让我感到困惑。我误解了这张桌子吗？或者有人可以解释为什么会这样吗？

也就是说，如果我的阅读是正确的，英特尔为什么不直接使用 FMA 运算作为普通 MUL 和普通 ADD 的基础，从而增加 ADD 和 MUL 的吞吐量。或者，什么会阻止我使用两个同时的、独立的 FMA 操作来模拟两个同时的、独立的 ADD 操作？执行 ADD-by-FMA 的相关处罚是什么？显然，使用的寄存器数量更多（2 reg 用于 ADD，3 reg 用于 ADD-by-FMA），但除此之外呢？

sse avx throughput flops fma

2015-03-04T17:52:03.880

0 投票

1 回答

585 浏览