2

有没有办法使用 C 或汇编程序甚至 C# 来准确测量执行 ADD 指令需要多长时间?

4

4 回答 4

11

是的,有点,但它并非微不足道,并且产生的结果几乎毫无意义,至少在大多数合理的现代处理器上是这样。

在相对较慢的处理器上(例如,直到英特尔系列中最初的 Pentium,在大多数小型嵌入式处理器上仍然如此),您只需查看处理器的数据表,它就会(通常)告诉您预期的时钟滴答数。快速、简单、轻松。

在现代台式机(例如 Pentium Pro 或更新版本)上,生活并没有那么简单。这些 CPU 一次可以执行多条指令,只要它们之间没有任何依赖关系,它们就会乱序执行。这意味着单个指令所用时间的整个概念变得几乎毫无意义。执行一条指令所花费的时间可以而且将取决于它周围的指令。

也就是说,是的,如果你真的想要,你可以(通常 - 取决于处理器)测量一些东西,尽管它究竟意味着多少是一个相当大的问题。即使得到这样一个接近于无意义而不是完全无意义的结果也不是微不足道的。例如,在 Intel 或 AMD 芯片上,您可以使用 RDTSC 自行进行时序测量。不幸的是,这可以如上所述乱序执行。要获得有意义的结果,您需要用不能乱序执行的指令(“序列化指令”)围绕它。最常见的选择是CPUID,因为它是少数可用于“用户模式”(即 ring 3)程序的序列化指令之一。不过,这本身也增加了一些扭曲:正如 Intel 所记录的,处理器执行 CPUID 的前几次,它可能需要比后续时间更长的时间。因此,他们建议您在使用它来序列化时序之前执行3次。因此,一般序列运行如下:

.align 16
CPUID
CPUID
CPUID
RDTSC
; sequence under test
Add eax, ebx
; end of sequence under test
CPUID
RDTSC

然后,您将其与执行相同操作的结果进行比较,但删除了测试中的序列。当然,这遗漏了相当多的细节——至少你需要:

  1. 在每个 CPUID 之前正确设置寄存器
  2. 在第一个 RDTSC 之后将值保存在 EAX:EDX
  3. 从第一个 RDTSC 中减去结果

还要注意我插入的“对齐”指令——指令对齐也会影响时序,尤其是在涉及循环的情况下。

于 2010-04-17T15:11:03.540 回答
2

构造一个执行 1000 万次的循环,循环体中没有任何内容,并对其计时。将该时间保留为循环所需的开销。

然后再次执行相同的循环,这次使用主体中的被测代码。这个循环的时间,减去开销(来自空循环的情况)是由于您的被测代码重复 1000 万次的时间。因此,除以迭代次数。

显然,这种方法需要根据迭代次数进行调整。如果您测量的内容很小,例如一条指令,您甚至可能希望运行超过 10 亿次迭代。如果它是一个重要的代码块,那么几千个可能就足够了。

在单个汇编指令的情况下,汇编程序可能是完成这项工作的正确工具,或者如果您熟悉内联汇编,则可能是 C。其他人发布了更优雅的解决方案,说明如何在没有重复的情况下进行测量,但重复技术始终可用,例如,嵌入式处理器没有其他人提到的良好时序指令。

但是请注意,在现代流水线处理器上,指令级并行性可能会混淆您的结果。因为一次不止一条指令在执行流水线中运行,所以一条给定指令的 N 次重复所花费的 N 次不再是一条指令的 N 倍。

于 2010-04-17T15:03:03.680 回答
0

好的,如果您使用的是 Windows、Linux、Unix、MacOS、AmigaOS 等操作系统,那么您将遇到的问题是,您的机器上已经在后台运行了许多进程,这会影响性能。计算指令实际时间的唯一真正方法是拆卸主板并使用外部硬件测试每个组件。这取决于您是绝对想自己执行此操作,还是只是想知道您的处理器的典型版本实际运行的速度有多快。英特尔和摩托罗拉等公司在发布之前对他们的芯片进行了广泛的测试,这些结果可供公众使用。您需要做的就是询问他们,他们会寄给您一张免费的 CD-ROM(可能是 DVD - 废话),其中包含结果。你可以自己做,但请注意,尤其是英特尔处理器包含许多不再需要的冗余指令,更不用说必要了。这会占用你很多时间,但我绝对可以看到这样做的乐趣。PS。如果纯粹是为了帮助您在个人项目中将自己机器的硬件推向理论上的最大值,那么您正在做的 Just Jeff 上面的回答非常适合在实际条件下生成整洁的指令速度平均值。

于 2012-04-06T12:05:52.463 回答
-3

不,但是您可以根据 add 指令所需的时钟周期数乘以 CPU 的时钟速率来计算它。ADD 的不同类型的参数可能会导致更多或更少的周期,但是对于给定的参数列表,指令总是需要相同数量的周期才能完成。

也就是说,你为什么在乎?

于 2010-04-17T14:46:02.173 回答