-2

我做了一个实验来模拟我们的服务器代码中发生的事情,我启动了 1024 个线程,每个线程都执行一个系统调用,这大约需要 2.8 秒才能在我的机器上完成执行。然后我在每个线程的函数中添加了usleep(1000000),当我第二次运行相同的程序时,执行时间增加到16s,时间将减少到8s。我想这可能是由 cpu 缓存和 cpu 上下文切换引起的,但我不太清楚如何解释。

此外,避免这种情况发生的最佳实践是什么(稍微增加每个线程的运行时间会导致整个程序性能下降)。

我在这里附上了测试代码,非常感谢您的帮助。

//largetest.cc
#include "local.h"
#include <time.h>
#include <thread>
#include <string>
#include "unistd.h"

using namespace std;

#define BILLION 1000000000L

int main()
{

    struct timespec start, end;
    double diff;

    clock_gettime(CLOCK_REALTIME, &start);

    int i = 0;
    int reqNum = 1024;

    for (i = 0; i < reqNum; i++)
    {
        string command = string("echo abc");
        thread{localTaskStart, command}.detach();
    }

    while (1)
    {
        if ((localFinishNum) == reqNum)
        {
            break;
        }
        else
        {
            usleep(1000000);
        }
        printf("curr num %d\n", localFinishNum);
    }

    clock_gettime(CLOCK_REALTIME, &end); /* mark the end time */
    diff = (end.tv_sec - start.tv_sec) * 1.0 + (end.tv_nsec - start.tv_nsec) * 1.0 / BILLION;
    printf("debug for running time = (%lf) second\n", diff);

    return 0;
}
//local.cc
#include "time.h"
#include "stdlib.h"
#include "stdio.h"
#include "local.h"
#include "unistd.h"
#include <string>
#include <mutex>

using namespace std;

mutex testNotifiedNumMtx;
int localFinishNum = 0;

int localTaskStart(string batchPath)
{

    char command[200];

    sprintf(command, "%s", batchPath.data());

    usleep(1000000);

    system(command);

    testNotifiedNumMtx.lock();
    localFinishNum++;
    testNotifiedNumMtx.unlock();

    return 0;
}

//local.h


#ifndef local_h
#define local_h

#include <string>

using namespace std;

int localTaskStart( string batchPath);

extern int localFinishNum;
#endif
4

1 回答 1

0

的读取localFinishNum也应该受mutex保护,否则根据线程在何处(即在哪些内核上)调度、缓存何时以及如何失效等因素,结果是不可预测的。

事实上,如果编译器决定放入localFinishNum寄存器(而不是总是从内存中加载它),那么如果您在优化模式下编译程序甚至可能不会终止。

于 2018-06-12T22:59:54.670 回答