问题标签 [flops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
profiling - 为什么浮点运算被认为是昂贵的?
我读到 gprof(函数分析)和其他分析方法可以返回在程序执行过程中发生的浮点操作的数量,因此想知道为什么 Flops 比常规操作昂贵得多?
cpu - 计算英特尔处理器的 gFLOP
如何测量我的计算机每个周期的 gFLOP?我正在使用以下处理器 - Intel(R) Pentium(R) CPU G620。它运行@ 2.60 GHz。
c - 编译器跳过循环
我正在通过循环编译触发器,其中包含以下简单操作:
但是,我从来没有对 num1 做任何事情,因此编译器会跳过它,无论 beginvar 和 endvar 有多大,这个循环都需要 0 毫秒。
我的问题是,如何强制编译器执行嵌套循环?
我尝试将 num1 声明为 volatile,但这比我想要的优化少。我希望编译器进行优化,但我也希望它执行这个循环。
我也不想在终端上打印任何东西
c++ - 当我们计算 Gflop 时,我们需要考虑索引计算吗?
例如,在这里计算数学运算:
我们应该在我们的总 gflops 中计算诸如++i
, i*xcol+j
etc 之类的操作(在你指出这里明显的错误之前,让我们暂时忘记 flops 的严格定义)计数还是我们只需要 count Y[i]*Z[j]
?我问这个的原因是我读了一些论文,他们在这里只把最后一篇算作 gflops/maths ops。
benchmarking - 计算每秒浮点运算次数 (FLOPS) 和每秒整数运算次数 (IOPS)
我正在尝试学习一些基本的基准测试。我的 Java 程序中有一个循环,例如,
我的处理器需要大约 0.431635 秒来处理这个。如何根据 Flops(每秒浮点操作数)和 Iops(每秒整数操作数)计算处理器速度?你能提供一些步骤的解释吗?
performance - 计算双精度的 gflops
我有一个提供峰值 GFLOPS 规格的设备,我想测量我的程序离它有多远。由于我使用的所有数据都是双精度的,我是否应该将操作数乘以 2 以获得 GLOPS 值并进行比较?
cpu - 沙桥和 haswell SSE2/AVX/AVX2 的每周期 FLOPS
我对使用 Sandy-Bridge 和 Haswell 可以在每个核心每个周期完成多少次触发器感到困惑。据我了解,对于 SSE,对于 SSE,每个内核每个周期应该有 4 个触发器,对于 AVX/AVX2,每个内核每个周期应该是 8 个触发器。
这似乎在这里得到验证, 如何实现每个周期 4 次 FLOP 的理论最大值? ,这里是 Sandy-Bridge CPU 规范。
然而,下面的链接似乎表明 Sandy-bridge 每个内核每个周期可以执行 16 次触发器,Haswell 每个内核每个周期可以执行 32 次触发器 http://www.extremetech.com/computing/136219-intels-haswell-is-an-unprecedented -威胁到 nvidia-amd。
谁可以给我解释一下这个?
编辑:我现在明白为什么我感到困惑了。我认为术语 FLOP 仅指单浮点 (SP)。我现在看到如何实现每个周期 4 次 FLOP 的理论最大值的测试?实际上是在双浮点 (DP) 上,因此它们实现了 SSE 的 4 DP FLOP/周期和 AVX 的 8 DP FLOP/周期。在 SP 上重做这些测试会很有趣。
matlab - 了解如何计算 FLOP
我很难掌握如何计算 FLOP。前一刻我觉得我明白了,下一刻我觉得毫无意义。一些帮助解释这一点将不胜感激。我查看了有关该主题的所有其他帖子,但没有一个完全用我熟悉的编程语言解释(我知道一些 MATLAB 和 FORTRAN)。
这是我的一本书中的一个示例,说明了我正在尝试做的事情。
对于下面的一段代码,触发器的总数可以写成(n*(n-1)/2)+(n*(n+1)/2)
相当于n^2 + O(n)
.
我正在尝试应用上述相同的原理来查找 FLOP 的总数作为n
以下代码(MATLAB)中方程数量的函数。
flops - 具有相同 gigaflops 数量的两个不同处理器之间的执行时间是否存在差异?
我有一个与朋友讨论过的硬件相关问题。
考虑来自两个不同制造商的两个处理器,将相同数量的 gigaflops 放入同一台计算机(即两台计算机的 RAM 等相同)。
现在给定一个简单的程序,两台具有相同处理器的计算机之间的执行时间会有所不同。即两台计算机会以不同的方式处理代码(for 循环、while 循环、if 语句等)吗?
如果,这种差异是否显着,或者可以说计算机的性能大致相同?
c++ - 计算 GFlops
我想知道如何为我的程序计算 GFlops,比如 CUDA 应用程序。
我需要测量代码中的执行时间和浮点运算的数量吗?如果我有一个像“logf”这样的操作,它会只算一次失败吗?