问题标签 [flops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 在 python 中使用 math.factorial(n) 计算阶乘时有多少 FLOP
如果我使用某种算法来查找指数近似和,我试图了解有多少 FLOP,特别是如果我在 python 中使用 math.factorial(n) 。我了解二元运算的 FLOP,那么阶乘也是函数中的二元运算吗?不是计算机科学专业的,我对这些有一些困难。我的代码如下所示:
请帮助我理解这一点。我也可能对其他 FLOP 有误!
algorithm - FFT 有多少 FLOPS?
我想知道FLOPS
快速傅里叶变换 (FFT) 执行了多少次。
所以,如果我有一个浮点数的1
维数组,N
并且我想计算这组数字的 FFT,FLOPS
需要执行多少?
我知道这取决于使用的算法,但最快的可用算法呢?
我也知道 FFT 的缩放是顺序的,N*log(N)
但这不能回答我的问题。
java - 计算浮点运算的编程方式(JAVA)
我正在寻找一种编程方式来计算在 JAVA 中调用函数时的浮点运算(触发器)的数量。
有几个密切相关的问题,询问什么是浮点数,以及如何进行大 O 计算复杂度分析,例如这里、这里和这里。但请注意,在我的应用程序中,我不想要一个大 O 数,我想知道对于函数的特定运行(即特定的输入数据大小),它需要多少次失败。
我能找到的两个最接近的解决方案是(1)建议使用运行时分析器来计算失败次数,但这不适合我的需要,因为我需要稍后在程序中使用结果和(2)库可以调用来增加计数器的计算函数,以及此处密切相关的建议。
最后两个建议可以满足我的需求,但需要对我需要计算的代码进行大量手动修改。另一种方法是只使用 CPU 运行时,这将非常快速和容易,但也很粗糙。
有谁知道计算一段代码执行的失败的编程方式?
floating-point - MIPS64 架构 CPU 的 FLOPs 性能是多少
当我尝试估计 MIPS64 CPU 系列的 FLOPs 时,我已经挖掘了很长一段时间,并且总是碰壁,我正在评估嵌入式设计。此外,我似乎无法找到这个 CPU 每个时钟、每个内核可以执行多少次浮点运算,这真的很令人沮丧,因为否则我可以自己计算它。对于任何 MIPS32/64 CPU,我只能找到 DMIPS,这对我没有多大帮助,因为我想将它与其他处理器进行比较,其中大多数都没有运行 dhrystone,即使它们运行了,我也没有完全确定将一个结果扩展到另一个结果是有意义的。
任何人都可以了解 MIPS cpu 内核如何处理浮点操作以及在多少周期内?我正在查看的 MIPS64 CPU 是四问题四线程 CPU,如果指令问题以任何一种方式提示规模。
提前致谢!
干杯,
vlex
c++ - 如何计算 FOP 总数和特殊运算的浮点性能(exp sin sqrt)?
衡量一个算法时,如果有除法运算,如何计算FOP总数和浮点性能?
比如n2矩阵乘法,计算n3 * 2flops(一次乘法,一次加法),假设使用相同的数据集n2,我们把矩阵乘法的乘法运算改成除法运算,如何计算flops。和矩阵相乘的结果一样吗?
floating-point - 了解 FMA 指令性能
我想了解如何最大限度地利用我的 CPU 上的操作数。我正在做一个简单的矩阵乘法程序,并且我有一个 Skylake 处理器。我正在查看维基百科页面以获取有关此架构的失败信息,但我很难理解它。
据我了解,FMA 指令允许 3 路 FP 输入对吗?并允许在它们之间的加法和乘法之间混合。但是当我只添加两个浮点数时会发生什么?它只是将它乘以一吗?我可以在 1 个周期中添加 3 个浮点数,还是会拆分?我看到 skylake,单精度输入有 32 个 FLOPs/cycle,但是“两个 8 宽 FMA 指令”是什么意思?
预先感谢您的解释
flops - 如何计算每秒的失败次数
正如前一篇文章和 wiki 所说,“ivy bridge 可以做”8 DP FLOPs/cycle:4-wide AVX add + 4-wide AVX multiplication”我在这里有点困惑,我知道 ivy bridge 没有 FMA ,而AVX指令集可以做4个DP/cycle,那为什么要4个加法+4个乘法呢?
time-complexity - 变量初始化的触发器计数
考虑以下伪代码:
a <- [0,0,0] (将 3d 向量初始化为零)
b <- [0,0,0] (将 3d 向量初始化为零)
c <- 一个。b(两个向量的点积)
在上面的伪代码中,什么是 flop 计数(即数字浮点运算)?
更一般地说,我想知道的是,在查看算法的复杂性时,变量的初始化是否计入总浮点运算。
cuda - CuSparse/CuBlas K40 与 GTX Titan X(麦克斯韦)
我正在使用 Tesla k40 和 GTX Titan X,并且我有 Cuda 8.0 我使用的函数是 CuBlas 和 CuSparse 库函数: cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot();
为什么 GTX Titan X 比 K40 快?我正在为从 3.0 到 6.0 的所有计算能力编译带有标志的 nvcc,并且我的程序处理 9 GB / 12 GB RAM。关于我,库函数不使用双精度,因为浮点 GTX TITAN X 有 6.xx Tflops,K40 有 4.xx Tflops,而浮点双 GTX TITAN X 有 2xx GFlops,K40 有 1.xx Tflops。从理论上讲,K40 必须比 GTX TITAN X 更快,这可能是我的问题吗?太奇怪了。