我正在编写一些 C 代码,这些代码实现了一个三重嵌套的 for 循环来计算矩阵-矩阵乘法,同时使用 OpenMP 对其进行并行化。我正在尝试准确测量从 for 循环开始到结束所花费的时间。到目前为止,我一直在使用 gettimeofday(),但我注意到有时感觉它并没有准确记录 for 循环执行所花费的时间。似乎它是在说它比实际花费的时间更长。
这是原始代码:
struct timeval start end;
double elapsed;
gettimeofday(&start, NULL);
#pragma omp parallel for num_threads(threads) private(i, j, k)
for(...)
{
...
for(...)
{
...
for(...)
{
...
}
}
}
gettimeofday(&end, NULL);
elapsed = (end.tv_sec+1E-6*end.tv_usec) - (start.tv_sec+1E-6*start.tv_usec)
这是使用clock_gettime()的相同代码:
struct timespec start1, finish1;
double elapsed1;
clock_gettime(CLOCK_MONOTONIC, &start1);
#pragma omp parallel for num_threads(threads) private(i, j, k)
for(...)
{
...
for(...)
{
...
for(...)
{
...
}
}
}
clock_gettime(CLOCK_MONOTONIC, &finish1);
elapsed1 = (finish1.tv_sec - start1.tv_sec);
elapsed1 += (finish1.tv_nsec - start1.tv_nsec)/1000000000.0;
循环需要 3-4 秒才能完成,我尝试同时使用两个时间测量,使用 gettimeofday() 的结果几乎总是比 clock_gettime() 的结果长,有时比我的结果长一秒多正在使用clock_gettime():
struct timespec start1, finish1;
double elapsed1;
struct timeval start end;
double elapsed;
clock_gettime(CLOCK_MONOTONIC, &start1);
gettimeofday(&start, NULL);
#pragma omp parallel for num_threads(threads) private(i, j, k)
for(...)
{
...
for(...)
{
...
for(...)
{
...
}
}
}
gettimeofday(&end, NULL);
clock_gettime(CLOCK_MONOTONIC, &finish1);
elapsed = (end.tv_sec+1E-6*end.tv_usec) - (start.tv_sec+1E-6*start.tv_usec)
elapsed1 = (finish1.tv_sec - start1.tv_sec);
elapsed1 += (finish1.tv_nsec - start1.tv_nsec)/1000000000.0;
是否有一个原因?使用这两个功能时可能会导致什么不同?我试图更好地理解这两个函数的性质。