c - clock_gettime() 对比 gettimeofday() 用于测量 OpenMP 执行时间

Question

我正在编写一些 C 代码，这些代码实现了一个三重嵌套的 for 循环来计算矩阵-矩阵乘法，同时使用 OpenMP 对其进行并行化。我正在尝试准确测量从 for 循环开始到结束所花费的时间。到目前为止，我一直在使用 gettimeofday()，但我注意到有时感觉它并没有准确记录 for 循环执行所花费的时间。似乎它是在说它比实际花费的时间更长。

这是原始代码：

struct timeval start end;
double elapsed;

gettimeofday(&start, NULL);
#pragma omp parallel for num_threads(threads) private(i, j, k)
for(...)
{
 ...
 for(...)
 {
  ...
  for(...)
  {
   ...
  }
 }
}

gettimeofday(&end, NULL);
elapsed = (end.tv_sec+1E-6*end.tv_usec) - (start.tv_sec+1E-6*start.tv_usec)

这是使用clock_gettime()的相同代码：

 struct timespec start1, finish1;
 double elapsed1;

clock_gettime(CLOCK_MONOTONIC, &start1);

  #pragma omp parallel for num_threads(threads) private(i, j, k)
    for(...)
    {
     ...
     for(...)
     {
      ...
      for(...)
      {
       ...
      }
     }
    }

clock_gettime(CLOCK_MONOTONIC, &finish1);
elapsed1 = (finish1.tv_sec - start1.tv_sec);
elapsed1 += (finish1.tv_nsec - start1.tv_nsec)/1000000000.0;

循环需要 3-4 秒才能完成，我尝试同时使用两个时间测量，使用 gettimeofday() 的结果几乎总是比 clock_gettime() 的结果长，有时比我的结果长一秒多正在使用clock_gettime（）：

struct timespec start1, finish1;
double elapsed1;

struct timeval start end;
double elapsed;

clock_gettime(CLOCK_MONOTONIC, &start1);
gettimeofday(&start, NULL);

  #pragma omp parallel for num_threads(threads) private(i, j, k)
    for(...)
    {
     ...
     for(...)
     {
      ...
      for(...)
      {
       ...
      }
     }
    }

gettimeofday(&end, NULL);
clock_gettime(CLOCK_MONOTONIC, &finish1);

elapsed = (end.tv_sec+1E-6*end.tv_usec) - (start.tv_sec+1E-6*start.tv_usec)

elapsed1 = (finish1.tv_sec - start1.tv_sec);
elapsed1 += (finish1.tv_nsec - start1.tv_nsec)/1000000000.0;

是否有一个原因？使用这两个功能时可能会导致什么不同？我试图更好地理解这两个函数的性质。

score 5 · Accepted Answer

elapsed = (end.tv_sec+1E-6*end.tv_usec) - (start.tv_sec+1E-6*start.tv_usec)减去都很大的相似值时容易丢失精度。

使用elapsed = (end.tv_sec - start.tv_sec) - (start.tv_usec- end.tv_usec)/1E6. 这就像 OP 的第二和第三代码，但不是第一个。

公平地说，以一致的顺序获得时间以消除偏见。

clock_gettime(CLOCK_MONOTONIC, &start1);
gettimeofday(&start, NULL);

...

// gettimeofday(&end, NULL);
// clock_gettime(CLOCK_MONOTONIC, &finish1);
clock_gettime(CLOCK_MONOTONIC, &finish1);
gettimeofday(&end, NULL);

次要：第三个虽然非常细微的改进有助于稍微减少不一致性（0.5 微秒），即在刻度变化时开始测试。但请注意@Dietrich Epp 评论以获得替代改进。
```
gettimeofday(&t, NULL);
do { 
  gettimeofday(&start, NULL);
} while (start == t);
```

或者，使用宽整数数学来避免精度问题

long long elapsed_ns = (1LL*finish1.tv_sec - start1.tv_sec)*1000000000LL + 
    finish1.tv_nsec - start1.tv_nsec;

score 2 · Accepted Answer

感谢大家的帮助。原来问题与时间函数无关，而是由于在计算结束时间和开始时间之间的差异时没有正确放置括号。我知道，这是一种虎头蛇尾和愚蠢的解决方案，但它解决了我的问题。当我使用 gettimeofday() 时，我这样做是为了计算结果：

经过 = end.tv_sec+1E-6*end.tv_usec - start.tv_sec+1E-6*start.tv_usec

当我应该这样做时：

经过 = (end.tv_sec+1E-6*end.tv_usec) - (start.tv_sec+1E-6*start.tv_usec)

我正在使用的代码是由其他人编写的，用于使用 gettimeofday() 函数，他们有这些#define：

#define TIME_GET(time) (time).tv_sec+1E-6*(time).tv_usec
#define TIME_GET_RESULT(start,end) TIME_GET(end)-TIME_GET(start)

通过添加括号更改第一个#define 解决了我的问题：

#define TIME_GET(time) ((time).tv_sec+1E-6*(time).tv_usec)

当我开始使用 clock_gettime() 时，我正确地放入了括号，只是没有注意到代码作者为 gettimeofday() 使用的#define 不是。

c - clock_gettime() 对比 gettimeofday() 用于测量 OpenMP 执行时间

2 回答 2

Related

Reference