“flops”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

379 浏览

python-2.7 - 在 python 中使用 math.factorial(n) 计算阶乘时有多少 FLOP

如果我使用某种算法来查找指数近似和，我试图了解有多少 FLOP，特别是如果我在 python 中使用 math.factorial(n) 。我了解二元运算的 FLOP，那么阶乘也是函数中的二元运算吗？不是计算机科学专业的，我对这些有一些困难。我的代码如下所示：

请帮助我理解这一点。我也可能对其他 FLOP 有误！

python-2.7 flops

2016-09-20T05:32:33.663

0 投票

4 回答

4583 浏览

algorithm - FFT 有多少 FLOPS？

我想知道FLOPS快速傅里叶变换 (FFT) 执行了多少次。

所以，如果我有一个浮点数的1维数组，N并且我想计算这组数字的 FFT，FLOPS需要执行多少？

我知道这取决于使用的算法，但最快的可用算法呢？

我也知道 FFT 的缩放是顺序的，N*log(N)但这不能回答我的问题。

2016-10-14T06:46:05.903

0 投票

0 回答

177 浏览

java - 计算浮点运算的编程方式（JAVA）

我正在寻找一种编程方式来计算在 JAVA 中调用函数时的浮点运算（触发器）的数量。

有几个密切相关的问题，询问什么是浮点数，以及如何进行大 O 计算复杂度分析，例如这里、这里和这里。但请注意，在我的应用程序中，我不想要一个大 O 数，我想知道对于函数的特定运行（即特定的输入数据大小），它需要多少次失败。

我能找到的两个最接近的解决方案是（1）建议使用运行时分析器来计算失败次数，但这不适合我的需要，因为我需要稍后在程序中使用结果和（2）库可以调用来增加计数器的计算函数，以及此处密切相关的建议。

最后两个建议可以满足我的需求，但需要对我需要计算的代码进行大量手动修改。另一种方法是只使用 CPU 运行时，这将非常快速和容易，但也很粗糙。

有谁知道计算一段代码执行的失败的编程方式？

java runtime time-complexity flops

2016-10-26T23:23:51.523

0 投票

0 回答

124 浏览

floating-point - MIPS64 架构 CPU 的 FLOPs 性能是多少

当我尝试估计 MIPS64 CPU 系列的 FLOPs 时，我已经挖掘了很长一段时间，并且总是碰壁，我正在评估嵌入式设计。此外，我似乎无法找到这个 CPU 每个时钟、每个内核可以执行多少次浮点运算，这真的很令人沮丧，因为否则我可以自己计算它。对于任何 MIPS32/64 CPU，我只能找到 DMIPS，这对我没有多大帮助，因为我想将它与其他处理器进行比较，其中大多数都没有运行 dhrystone，即使它们运行了，我也没有完全确定将一个结果扩展到另一个结果是有意义的。

任何人都可以了解 MIPS cpu 内核如何处理浮点操作以及在多少周期内？我正在查看的 MIPS64 CPU 是四问题四线程 CPU，如果指令问题以任何一种方式提示规模。

提前致谢！

干杯，
vlex

floating-point mips mips32 flops mips64

2016-12-01T08:24:29.230

0 投票

3 回答

2987 浏览

python - tanh 需要多少 FLOP？

我想计算 LeNet-5（论文）的每一层需要多少次失败。有些论文总共给出了其他架构的 FLOP（1 , 2 , 3）但是，这些论文没有详细说明如何计算 FLOP 的数量，而且我不知道非线性激活函数需要多少 FLOP . 例如，计算需要多少次 FLOP tanh(x)？

我想这将是实现，也可能是特定于硬件的。但是，我主要对获得一个数量级感兴趣。我们是在谈论 10 FLOPs 吗？100 次翻牌？1000 次失败？因此，选择您想要的任何架构/实现作为答案。（尽管我很欣赏接近“常见”设置的答案，例如 Intel i5 / nvidia GPU / Tensorflow）

python tensorflow flops

2016-12-20T21:42:16.737

0 投票

1 回答

480 浏览

c++ - 如何计算 FOP 总数和特殊运算的浮点性能（exp sin sqrt）？

衡量一个算法时，如果有除法运算，如何计算FOP总数和浮点性能？

比如n2矩阵乘法，计算n3 * 2flops（一次乘法，一次加法），假设使用相同的数据集n2，我们把矩阵乘法的乘法运算改成除法运算，如何计算flops。和矩阵相乘的结果一样吗？

c++flops

2016-12-25T14:34:44.297

0 投票

1 回答

1717 浏览

floating-point - 了解 FMA 指令性能

我想了解如何最大限度地利用我的 CPU 上的操作数。我正在做一个简单的矩阵乘法程序，并且我有一个 Skylake 处理器。我正在查看维基百科页面以获取有关此架构的失败信息，但我很难理解它。

据我了解，FMA 指令允许 3 路 FP 输入对吗？并允许在它们之间的加法和乘法之间混合。但是当我只添加两个浮点数时会发生什么？它只是将它乘以一吗？我可以在 1 个周期中添加 3 个浮点数，还是会拆分？我看到 skylake，单精度输入有 32 个 FLOPs/cycle，但是“两个 8 宽 FMA 指令”是什么意思？

预先感谢您的解释

floating-point cpu-architecture instruction-set flops fma

2017-01-07T23:53:26.253

0 投票

0 回答

431 浏览

flops - 如何计算每秒的失败次数

正如前一篇文章和 wiki 所说，“ivy bridge 可以做”8 DP FLOPs/cycle：4-wide AVX add + 4-wide AVX multiplication”我在这里有点困惑，我知道 ivy bridge 没有 FMA ，而AVX指令集可以做4个DP/cycle，那为什么要4个加法+4个乘法呢？

flops

2017-02-17T02:03:07.130

0 投票

1 回答

124 浏览

time-complexity - 变量初始化的触发器计数

考虑以下伪代码：

a <- [0,0,0] （将 3d 向量初始化为零）

b <- [0,0,0] （将 3d 向量初始化为零）

c <- 一个。b（两个向量的点积）

在上面的伪代码中，什么是 flop 计数（即数字浮点运算）？
更一般地说，我想知道的是，在查看算法的复杂性时，变量的初始化是否计入总浮点运算。

time-complexity flops

2017-03-05T11:32:40.003

0 投票

1 回答

197 浏览

cuda - CuSparse/CuBlas K40 与 GTX Titan X（麦克斯韦）

我正在使用 Tesla k40 和 GTX Titan X，并且我有 Cuda 8.0 我使用的函数是 CuBlas 和 CuSparse 库函数： cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot();

为什么 GTX Titan X 比 K40 快？我正在为从 3.0 到 6.0 的所有计算能力编译带有标志的 nvcc，并且我的程序处理 9 GB / 12 GB RAM。关于我，库函数不使用双精度，因为浮点 GTX TITAN X 有 6.xx Tflops，K40 有 4.xx Tflops，而浮点双 GTX TITAN X 有 2xx GFlops，K40 有 1.xx Tflops。从理论上讲，K40 必须比 GTX TITAN X 更快，这可能是我的问题吗？太奇怪了。

cuda cublas flops

2017-03-17T15:43:57.693

问题标签 [flops]

Reference