2

代码很天真:

use std::time;

fn main() {
    const NUM_LOOP: u64 = std::u64::MAX;
    let mut sum = 0u64;
    let now = time::Instant::now();
    for i in 0..NUM_LOOP {
        sum += i;
    }
    let d = now.elapsed();
    println!("{}", sum);
    println!("loop: {}.{:09}s", d.as_secs(), d.subsec_nanos());
}

输出是:

$ ./test.rs.out
9223372036854775809
loop: 0.000000060s
$ ./test.rs.out
9223372036854775809
loop: 0.000000052s
$ ./test.rs.out
9223372036854775809
loop: 0.000000045s
$ ./test.rs.out
9223372036854775809
loop: 0.000000041s
$ ./test.rs.out
9223372036854775809
loop: 0.000000046s
$ ./test.rs.out
9223372036854775809
loop: 0.000000047s
$ ./test.rs.out
9223372036854775809
loop: 0.000000045s

该计划几乎立即结束。我还使用 for 循环在 C 中编写了一个等效代码,但它运行了很长时间。我想知道是什么让 Rust 代码如此之快。

C代码:

#include <stdint.h>
#include <time.h>
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <time.h>

double time_elapse(struct timespec start) {
    struct timespec now;
    clock_gettime(CLOCK_MONOTONIC, &now);
    return now.tv_sec - start.tv_sec +
           (now.tv_nsec - start.tv_nsec) / 1000000000.;
}

int main() {
    const uint64_t NUM_LOOP = 18446744073709551615u;
    uint64_t sum = 0;
    struct timespec now;
    clock_gettime(CLOCK_MONOTONIC, &now);

    for (int i = 0; i < NUM_LOOP; ++i) {
        sum += i;
    }

    double t = time_elapse(now);
    printf("value of sum is: %llu\n", sum);
    printf("time elapse is: %lf sec\n", t);

    return 0;
}

Rust 代码是使用编译-O的,C 代码是使用编译的-O3。C 代码运行速度非常慢,以至于它还没有停止。

在修复了 visibleman 和 Sandeep 发现的错误后,两个程序几乎很快就打印了相同的数字。我试图减少NUM_LOOP一个,考虑到溢出,结果似乎是合理的。此外,使用NUM_LOOP = 1000000000,两个程序都不会溢出并立即产生正确的答案。这里使用了哪些优化?我知道我们可以使用简单的方程(0 + NUM_LOOP - 1) * NUM_LOOP / 2来计算结果,但我不认为这种计算是由编译器完成的,有溢出情况......

4

3 回答 3

9

您的 Rust 代码(没有打印和计时)编译为(On Godbolt):

movabs rax, -9223372036854775807
ret

LLVM 只是对整个函数进行 const 折叠并为您计算最终值。

让我们使上限动态(非常数)以避免这种激进的常数折叠:

pub fn foo(num: u64) -> u64 {
    let mut sum = 0u64;
    for i in 0..num {
        sum += i;
    }

    sum
}

这导致(Godbolt):

  test rdi, rdi            ; if num == 0
  je .LBB0_1               ; jump to .LBB0_1
  lea rax, [rdi - 1]       ; sum = num - 1
  lea rcx, [rdi - 2]       ; rcx = num - 2
  mul rcx                  ; sum = sum * rcx
  shld rdx, rax, 63        ; rdx = sum / 2
  lea rax, [rdx + rdi]     ; sum = rdx + num
  add rax, -1              ; sum -= 1
  ret
.LBB0_1:
  xor eax, eax             ; sum = 0
  ret

正如您所看到的,优化器理解您将所有数字相加,num并用一个常数公式替换您的循环:((num - 1) * (num - 2)) / 2 + num - 1. 至于上面的例子:优化器可能首先将代码优化成这个常量公式,然后进行常量折叠。

补充笔记

  • 另外两个答案已经指出了您在 C 程序中的错误。修复后,clang 生成完全相同的程序集(不出所料)。然而,GCC 似乎并不知道这种优化,并生成了几乎你所期望的程序集(一个循环)
  • 在 Rust 中,编写代码的一种更简单、更惯用的方式是(0..num).sum(). 尽管这使用了更多的抽象层(即迭代器),但编译器生成的代码与上面完全相同。
  • 要在 Rust 中打印 a Duration,您可以使用{:?}格式说明符。println!("{:.2?}", d);以最合适的单位打印持续时间,精度为 2。这是为几乎所有类型的基准打印时间的好方法。
于 2018-10-24T12:31:34.323 回答
7

由于 anint永远不会像您NUM_LOOP的 一样大,因此程序将永远循环。

const uint64_t NUM_LOOP = 18446744073709551615u;

for (int i = 0; i < NUM_LOOP; ++i) { // Change this to an uint64_t

如果您修复了 int 错误,编译器将在这两种情况下优化掉这些循环。

于 2018-10-24T05:57:44.560 回答
5

您的代码陷入了无限循环。

比较i < NUM_LOOP将始终返回 true,因为int i会在到达之前回绕NUM_LOOP

于 2018-10-24T05:57:58.337 回答