问题标签 [flops]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
40101 浏览

performance - 什么是 FLOP/s,它是衡量性能的好方法吗?

我被要求测量在多 CPU 系统上求解微分方程的 fortran 程序的性能。我的雇主坚持要我测量 FLOP/s(每秒浮动操作)并将结果与​​基准(LINPACK)进行比较,但我不相信这是要走的路,仅仅是因为没有人能向我解释什么是 FLOP。

我对 FLOP 到底是什么做了一些研究,得到了一些非常矛盾的答案。我得到的最受欢迎的答案之一是“1 FLOP = 加法和乘法运算”。真的吗?如果是这样,再一次,在物理上,这到底意味着什么?

无论我最终使用什么方法,它都必须是可扩展的。某些版本的代码解决了具有数百万个未知数的系统,并且需要数天才能执行。

在我的案例中,还有什么其他有效的测量性能的方法(我的案例总结是'fortran代码,它在数百个CPU上一遍又一遍地进行大量算术计算)?

0 投票
6 回答
20501 浏览

floating-point - 浮点加法与浮点乘法的相对速度是多少

一两年前,编写数字代码以避免使用乘法和除法而是使用加法和减法是值得的。一个很好的例子是使用前向差分来评估多项式曲线,而不是直接计算多项式。

仍然是这种情况,还是现代计算机体系结构已经发展到 *,/ 不再比 +,- 慢很多倍的程度?

具体来说,我对在具有广泛板载浮点硬件的现代典型 x86 芯片上运行的编译 C/C++ 代码感兴趣,而不是试图在软件中进行 FP 的小型微型计算机。我意识到流水线和其他架构增强排除了特定的循环计数,但我仍然想获得一个有用的直觉。

0 投票
9 回答
2641 浏览

c - FLOP 什么是真正的 FLOP

我来自这个线程:FLOPS Intel core and testing it with C (innerproduct)

当我开始编写简单的测试脚本时,我想到了几个问题。

  1. 为什么是浮点数?我们必须考虑的浮点有什么重要意义?为什么不是一个简单的int?

  2. 如果我想测量 FLOPS,假设我正在做两个向量的内积。这两个向量必须是 float[] 吗?如果我使用 int[],测量会有什么不同?

  3. 我不熟悉英特尔架构。假设我有以下操作:

    这是多少次“浮点运算”?

  4. 我有点困惑,因为我研究了一个简化的 32 位 MIPS 架构。对于每条指令,有 32 位,例如操作数 1 为 5 位,操作数 2 为 5 位等。所以对于英特尔架构(特别是与前一个线程相同的架构),我被告知寄存器可以容纳 128 位。对于单精度浮点,每个浮点数 32 位,这是否意味着对于馈送到处理器的每条指令,它可以采用 4 个浮点数?难道我们还不需要考虑操作数和指令其他部分中涉及的位吗?我们如何才能将 4 个浮点数输入到 CPU 中而没有任何具体含义?

我不知道我将所有事情都零碎思考的方法是否有意义。如果不是,我应该看什么“高度”的视角?

0 投票
7 回答
486 浏览

linux - 高并发多线程应用程序需要硬件

我正在寻找一种硬件,它必须以 24 小时模式(一个多线程 C 应用程序)运行大约 256 个计算密集型实时并发任务。每个任务大约需要 40-50 MFLOPs,因此所有任务都需要大约 10 GFLOPs。CPU-RAM 速度无关紧要。所有任务都必须由 Linux 内核(32 位,带 SMP)管理。

我正在寻找具有一个多核 CPU 的单主板解决方案(如果存在这样的 CPU)。如果这样的 CPU 不存在,那么我需要一个多插槽主板解决方案(具有多个 CPU)。

您能否向我推荐任何可以满足此类要求的专业 CPU/主板解决方案?Linux Kernel (2.6.25) 没有问题也很重要。没有虚拟化,不需要巨大的 RAM 或 CPU 缓存。我也更喜欢英特尔架构和久经考验的稳定性。我仍然怀疑它是否可行。

先感谢您。

更新:我想我在这里这里找到了正确的答案。

0 投票
1 回答
3289 浏览

cuda - 在程序中计算 FLOPS/GFLOPS - CUDA

已经完成了将 CRS 矩阵和向量 (SpMV) 相乘的应用程序,现在唯一要做的就是计算我的应用程序所做的 FLOPS。在我看来,在稀疏矩阵 - 向量乘法的情况下,很难估计浮点运算的数量,因为一行中的乘法数量确实“跳跃”或流畅。

我只尝试使用“cudaprof”(在 ./CUDA/bin 目录中可用)来测量时间 - 它工作正常。

任何建议和指导贴表示赞赏!

0 投票
3 回答
563 浏览

floating-point - 算术求反算作浮点运算吗?

我目前正在测量 FLOPS 中某些代码的性能。这段代码提供了一些算术否定指令,如下所示:

其中da是浮点变量。我目前使用的架构确实有特定的否定指令。我是否必须考虑这种操作来衡量 FLOPS?什么样的操作会导致 FLOPS?有什么约定吗?

0 投票
3 回答
3492 浏览

cpu - RFID 标签有处理器吗?

RFID 标签是否具有能够进行简单计算的“真实”处理器?如果是这样,现在 RFID 处理器的处理能力是多少?

0 投票
1 回答
443 浏览

c - 处理器的 Gigaflops

我发现我的计算机具有 NVIDIA CUDA 技术,我想测量 CPU 和 GPU 的处理能力。

我不想搜索程序来执行此操作,而是希望更深入地了解它的工作原理。我需要什么样的代码(C/C++)?

0 投票
5 回答
6885 浏览

architecture - 什么算是翻牌?

假设我有一个伪 C 程序:

对于 30 FLOPS,这个 (1 [x++] + 1 [x*5] + 1 [2+(x+5))] * 10[loop] 的 FLOP 数是多少?我很难理解什么是翻牌。

请注意,[...] 表示我从哪里获得“操作”的计数。

0 投票
1 回答
832 浏览

c - 如何创建 makefile CUDA 使其在 CPU 中执行以测试 CPU FLOPs?

我正在尝试计算 GPU 和 CPU FLOPs,我从这里得到了源代码

我将它重命名为 cudaflops.cu 并用这个 makefile 编译它

Tt 工作正常并给出结果 367 GFlOPs

但是现在,我不知道在 CPU 中测试这个源,我读到这个说源可以在 CPU 上运行。

那么修改后的makefile怎么做呢??