问题标签 [flops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - C++ 计算 GFlops
我最近尝试制作一个计算 FLOPS 的简单程序。由于c++
速度足够快,所以我认为值得一试以获得接近的结果。
当我使用 Notepad++ 插件编译它时NppExec
,它工作正常,但我没有构建它。当我在 CodeBlocks 中构建和运行时,它会不断迭代并且不会完成该过程。所以我回到记事本++并再次编译它,然后这次我运行它工作正常,迭代只过了一秒钟。
如果您知道如何使结果更精确,请继续,任何答案将不胜感激!
python - 使用多处理来利用 CPU 的所有内核
我正在尝试计算我的 CPU 每秒可以执行的浮点操作数,所以我编写了以下程序:
该程序计算执行“n”次浮点运算所需的时间(execTime),“n / execTime”为我提供了我想要的 FLOPS 值。
但是,随着进程数量的增加,FLOPS 值会降低。我期望它会减少,因为这些进程每秒执行更多的操作,因为它们是并行运行的。我究竟做错了什么??
kernel - CPU-GPU FLOP 率
我需要计算代码应该提供的每个传输值的触发器数,以便在 GPU 上运行代码足以提高性能。
以下是翻牌率和假设:
1 . PCIe 16x v3.0 总线能够以 15.75 GB/s 的速率将数据从 CPU 传输到 GPU。
2 . GPU 能够执行 8 个单精度 TFLOPs/秒。
3 . CPU 能够执行 400 单精度 GFLOPs/秒。
4 . 单精度浮点数为 4 个字节。
5 . 计算可以与数据传输重叠。
6 . 数据最初放置在 CPU 中。
这样的问题如何一步步解决?
performance - 估计除法的翻牌数
我想知道为什么在文献(和互联网)中对除法的 FLOP 计数的处理方式不同。
我在stackoverflow(1div = 4flop)找到了这个定义: https ://stackoverflow.com/a/329243/6059576
Golub & Van Loan (1div = 1 flop) https://books.google.de/books?id=X5YfsuCWpxMC&lpg=PA12&ots=91CiEj4dn-&dq=matrix%20computations%20flop&hl=de&pg的另一本书“矩阵计算” =PA12#v=onepage&q=matrix%20computations%20flop&f=false
另一个在 Ueberhuber 的“数值计算”中(1div = 10-30 flop) https://books.google.de/books?id=giH7CAAAQBAJ&lpg=PA21&ots=DtPHO06Eta&dq=numerical%20computation1&hl=de&pg=PA193#v=onepage&q&f=false
第一个有参考(书籍,其他出版物,...)吗?因为作者说
..某种 HPC 社区中的事实标准
amazon-web-services - Intel Xeon E5-2670 v2 计算 GFlops
我如何计算处理器的 GFlops:Intel Xeon E5-2670 v2 时钟速度:2.5 GHz vCPU:2 内存:7.5 GiB 存储:1 * 32 SSD 网络性能:中等(500 Mbps)
它的 aws 实例类型:m3.large 我无法找到 IPC 并计算 GFlops,因此我可以估算我的成本。任何帮助都会很棒。
fortran - 使用内存带宽信息计算 HPC 应用程序的 mflop/s
我想在不运行应用程序的情况下计算 HPC 应用程序(NAS 基准测试)的 mflops(每个处理器每秒百万次操作)。我已经使用 Stream Benchmark 测量了我的系统(超级计算机)每个核心的内存带宽。我想知道如何通过获得内核的内存带宽信息来获得应用程序的每个处理器的 mflops。我的节点有 64GiB 内存(包括 16 个核心 - 2 个插槽)和使用所有物理核心的 58 GiB/s 聚合带宽。我的内核的内存带宽从 2728.1204 MB/s 到 Triad 功能的 10948.8962 MB/s 不等,这一定是因为 NUMA 架构。
任何帮助将不胜感激。
performance - 使用实际内存带宽时计算实际触发器/内核
我想使用以下信息计算 mflop/s/core 的实际数量:
我测量了 1 个节点中每个内核的实际内存带宽量,即 4371 MB/s。
如果我在一个节点上只使用一个内核(在这种情况下,节点的整个内存都可用于该内核),我还在一个节点上测量了 mflop/s/core,结果为 2094.45。所以我测量了该内核可用的内存带宽 = 10812.3 MB/s
所以现在我想计算内核具有实际内存带宽(4371MB/s)时的实际 mflop/s/core。
如果我这样计算,你认为它是否正确:
实际 mflop/s/core= (mflop/s/core * 实际内存 bw) / 已用内存带宽
任何帮助,将不胜感激。
fpga - 根据 FLOPS(浮点运算)数估算功耗?
我已经提取了我的每个算法消耗了多少次触发器(浮点运算),
- 我想知道我是在 FPGA 上还是在 CPU 上实现这个算法,可以预测(至少大致)将消耗多少功率?
CPU 或 ASIC/FPGA 中的功耗估计对我都有好处。我正在寻找类似公式的东西。我有这篇期刊论文,适用于英特尔 CPU。它给出了每条指令的功耗(不仅是浮点运算,还有所有那些寻址、控制等指令),所以我需要更通用的东西来根据 FLOPS 而不是特殊处理器中代码的指令数来提供功耗。
benchmarking - 各核计算能力
我正在寻找一个基准来衡量我的系统(超级计算机)中每个核心的计算能力。换句话说,我想在一个处理器中找到每秒实际可实现的最大浮点运算。我发现了一个名为 SPEC 的基准,它可能对我有用,但它不是免费的。您能否建议我为此目标提供任何合适的基准?
任何帮助,将不胜感激。