5

这是我用 c++ 编写的 MacBook Air 结果,执行时间:2.692 秒

这是我的 Arduino 代码。它在“for”之前和之后获取时间(以微秒为单位)。
差异是 732 微秒,即 0.000732 秒

4

3 回答 3

13

让我们看看 MSVC 如何在调试模式下编译您的代码,因为您似乎正在编译它...

unsigned int max = 1000000000L;
    011643BE  mov         dword ptr [max],3B9ACA00h  
for (unsigned int i=0; i<max; i++)
    011643C5  mov         dword ptr [ebp-14h],0  
    011643CC  jmp         main+37h (011643D7h)  
    011643CE  mov         eax,dword ptr [ebp-14h]  
    011643D1  add         eax,1  
    011643D4  mov         dword ptr [ebp-14h],eax  
    011643D7  mov         eax,dword ptr [ebp-14h]  
    011643DA  cmp         eax,dword ptr [max]  
for (unsigned int i=0; i<max; i++)
    011643DD  jae         main+4Eh (011643EEh)  
{
    n++;
    011643DF  mov         eax,dword ptr ds:[0116F218h]  
    011643E4  add         eax,1  
    011643E7  mov         dword ptr ds:[0116F218h],eax  
}
011643EC  jmp         main+2Eh (011643CEh)  

好的,现在让我们看看在发布模式下......

unsigned int max = 1000000000L;
for (unsigned int i=0; i<max; i++)
    00FC1270  mov         eax,dword ptr ds:[00FC4430h]  
{
    n++;
}
std::cout << n;
    00FC1275  mov         ecx,dword ptr ds:[0FC3030h]  
    00FC127B  add         eax,3B9ACA00h  
    00FC1280  push        eax  
    00FC1281  mov         dword ptr ds:[00FC4430h],eax  
    00FC1286  call        dword ptr ds:[0FC3038h] 

注意到区别了吗?发布模式已经完全优化了循环

好的,现在让我们换个角度看看 Arduino 是如何做到的。为一些 AVR asm 做好准备...

for(i=0; i<1000000000; i++)
{
 n++;
}
Serial.println(n);
    d8: c8 01           movw    r24, r16
    da: 40 e0           ldi r20, 0x00   ; 0
    dc: 5a ec           ldi r21, 0xCA   ; 202
    de: 6a e9           ldi r22, 0x9A   ; 154
    e0: 7b e3           ldi r23, 0x3B   ; 59
    e2: 2a e0           ldi r18, 0x0A   ; 10
    e4: 30 e0           ldi r19, 0x00   ; 0
    e6: 0e 94 c4 04     call    0x988   ; 0x988 <_ZN5Print7printlnEli>

哇!它也优化了循环!编译器是个聪明的小混蛋,init ?!?!

...而且当您考虑时,执行那么长的循环不是 0.0007 秒有点快吗?那只够大约 43 个时钟周期的时间——勉强够调用Serial.println().

于 2013-01-06T04:15:33.543 回答
12

首先,您编写的代码非常简单。根据编译器和编译器设置,此类代码的编译结果会有很大差异。正确配置的优化编译器通常会将其编译为n无任何循环的最终值的普通赋值。或者它甚至可以n完全消除。在这种情况下,您真正​​衡量的只是“空虚”:一个几乎什么都不做的程序的启动和终止时间。

其次,您使用的测量方法在两个版本的代码之间似乎完全不同。在第一种情况下,您似乎在系统级别使用某些东西,这意味着它可能包括各种启动和结束时间到最终计数中。在第二种情况下,您将测量值嵌入到实际代码中,确保只测量周期(同样,编译器可能会消除它)。

换句话说,您正在使用不一致的方法来计时甚至可能不存在的东西。您获得的结果与代码的性能几乎没有相关性,或者更有可能根本没有相关意义。

于 2013-01-06T03:55:22.990 回答
4

AndreyT 已经给出了相关的技术解释,但这里有一个快速而肮脏的估计,有助于寻找正确的方向:

假设 Arduino 实际上在大约一毫秒(730 微秒)内管理了 10 亿(1e9)个增量,并且忽略了额外的增量并检查循环计数器以及跳转指令,这意味着 Arduino 可以以一定频率处理增量至少为 1e12 Hz,即 1000 GHz(请注意,这是对已处理增量指令频率的估计,它不一定等同于“CPU 频率”,但在没有任何其他信息的情况下是一个相当不错的估计器)。不太可能。因此可以安全地假设您的 arduino 编译器只是简单地消除了整个循环。

(对你的 MacBook 的相同估计给出了至少 (1e9/2.7) Hz 的频率,因此增量大约为 370Mhz - 考虑到操作系统开销以及循环需要额外增量、跳转和比较的事实,这可以解决相当接近您的处理器频率,所以我猜您的 Mac 程序编译器实际上会保持循环。)

于 2013-01-06T04:04:04.163 回答