问题标签 [flops]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
379 浏览

python-2.7 - 在 python 中使用 math.factorial(n) 计算阶乘时有多少 FLOP

如果我使用某种算法来查找指数近似和,我试图了解有多少 FLOP,特别是如果我在 python 中使用 math.factorial(n) 。我了解二元运算的 FLOP,那么阶乘也是函数中的二元运算吗?不是计算机科学专业的,我对这些有一些困难。我的代码如下所示:

请帮助我理解这一点。我也可能对其他 FLOP 有误!

0 投票
4 回答
4583 浏览

algorithm - FFT 有多少 FLOPS?

我想知道FLOPS快速傅里叶变换 (FFT) 执行了多少次。

所以,如果我有一个浮点数的1维数组,N并且我想计算这组数字的 FFT,FLOPS需要执行多少?

我知道这取决于使用的算法,但最快的可用算法呢?

我也知道 FFT 的缩放是顺序的,N*log(N)但这不能回答我的问题。

0 投票
0 回答
177 浏览

java - 计算浮点运算的编程方式(JAVA)

我正在寻找一种编程方式来计算在 JAVA 中调用函数时的浮点运算(触发器)的数量。

有几个密切相关的问题,询问什么是浮点数,以及如何进行大 O 计算复杂度分析,例如这里这里这里。但请注意,在我的应用程序中,我不想要一个大 O 数,我想知道对于函数的特定运行(即特定的输入数据大小),它需要多少次失败。

我能找到的两个最接近的解决方案是(1)建议使用运行时分析器来计算失败次数,但这不适合我的需要,因为我需要稍后在程序中使用结果和(2)库可以调用来增加计数器的计算函数,以及此处密切相关的建议。

最后两个建议可以满足我的需求,但需要对我需要计算的代码进行大量手动修改。另一种方法是只使用 CPU 运行时,这将非常快速和容易,但也很粗糙。

有谁知道计算一段代码执行的失败的编程方式?

0 投票
0 回答
124 浏览

floating-point - MIPS64 架构 CPU 的 FLOPs 性能是多少

当我尝试估计 MIPS64 CPU 系列的 FLOPs 时,我已经挖掘了很长一段时间,并且总是碰壁,我正在评估嵌入式设计。此外,我似乎无法找到这个 CPU 每个时钟、每个内核可以执行多少次浮点运算,这真的很令人沮丧,因为否则我可以自己计算它。对于任何 MIPS32/64 CPU,我只能找到 DMIPS,这对我没有多大帮助,因为我想将它与其他处理器进行比较,其中大多数都没有运行 dhrystone,即使它们运行了,我也没有完全确定将一个结果扩展到另一个结果是有意义的。

任何人都可以了解 MIPS cpu 内核如何处理浮点操作以及在多少周期内?我正在查看的 MIPS64 CPU 是四问题四线程 CPU,如果指令问题以任何一种方式提示规模。

提前致谢!

干杯,
vlex

0 投票
3 回答
2987 浏览

python - tanh 需要多少 FLOP?

我想计算 LeNet-5(论文)的每一层需要多少次失败。有些论文总共给出了其他架构的 FLOP(1 , 2 , 3)但是,这些论文没有详细说明如何计算 FLOP 的数量,而且我不知道非线性激活函数需要多少 FLOP . 例如,计算 需要多少次 FLOP tanh(x)

我想这将是实现,也可能是特定于硬件的。但是,我主要对获得一个数量级感兴趣。我们是在谈论 10 FLOPs 吗?100 次翻牌?1000 次失败?因此,选择您想要的任何架构/实现作为答案。(尽管我很欣赏接近“常见”设置的答案,例如 Intel i5 / nvidia GPU / Tensorflow)

0 投票
1 回答
480 浏览

c++ - 如何计算 FOP 总数和特殊运算的浮点性能(exp sin sqrt)?

衡量一个算法时,如果有除法运算,如何计算FOP总数和浮点性能?

比如n2矩阵乘法,计算n3 * 2flops(一次乘法,一次加法),假设使用相同的数据集n2,我们把矩阵乘法的乘法运算改成除法运算,如何计算flops。和矩阵相乘的结果一样吗?

0 投票
1 回答
1717 浏览

floating-point - 了解 FMA 指令性能

我想了解如何最大限度地利用我的 CPU 上的操作数。我正在做一个简单的矩阵乘法程序,并且我有一个 Skylake 处理器。我正在查看维基百科页面以获取有关此架构的失败信息,但我很难理解它。

据我了解,FMA 指令允许 3 路 FP 输入对吗?并允许在它们之间的加法和乘法之间混合。但是当我只添加两个浮点数时会发生什么?它只是将它乘以一吗?我可以在 1 个周期中添加 3 个浮点数,还是会拆分?我看到 skylake,单精度输入有 32 个 FLOPs/cycle,但是“两个 8 宽 FMA 指令”是什么意思?

预先感谢您的解释

0 投票
0 回答
431 浏览

flops - 如何计算每秒的失败次数

正如前一篇文章和 wiki 所说,“ivy bridge 可以做”8 DP FLOPs/cycle:4-wide AVX add + 4-wide AVX multiplication”我在这里有点困惑,我知道 ivy bridge 没有 FMA ,而AVX指令集可以做4个DP/cycle,那为什么要4个加法+4个乘法呢?

0 投票
1 回答
124 浏览

time-complexity - 变量初始化的触发器计数

考虑以下伪代码:

a <- [0,0,0] (将 3d 向量初始化为零)

b <- [0,0,0] (将 3d 向量初始化为零)

c <- 一个。b(两个向量的点积)

在上面的伪代码中,什么是 flop 计数(即数字浮点运算)?
更一般地说,我想知道的是,在查看算法的复杂性时,变量的初始化是否计入总浮点运算。

0 投票
1 回答
197 浏览

cuda - CuSparse/CuBlas K40 与 GTX Titan X(麦克斯韦)

我正在使用 Tesla k40 和 GTX Titan X,并且我有 Cuda 8.0 我使用的函数是 CuBlas 和 CuSparse 库函数: cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot();

为什么 GTX Titan X 比 K40 快?我正在为从 3.0 到 6.0 的所有计算能力编译带有标志的 nvcc,并且我的程序处理 9 GB / 12 GB RAM。关于我,库函数不使用双精度,因为浮点 GTX TITAN X 有 6.xx Tflops,K40 有 4.xx Tflops,而浮点双 GTX TITAN X 有 2xx GFlops,K40 有 1.xx Tflops。从理论上讲,K40 必须比 GTX TITAN X 更快,这可能是我的问题吗?太奇怪了。