我有一个简单的程序可以执行一些蒙特卡洛算法。该算法的一次迭代没有副作用,因此我应该能够使用多个线程运行它。所以这是我整个程序的相关部分,它是用 C++11 编写的:
void task(unsigned int max_iter, std::vector<unsigned int> *results, std::vector<unsigned int>::iterator iterator) {
for (unsigned int n = 0; n < max_iter; ++n) {
nume::Album album(535);
unsigned int steps = album.fill_up();
*iterator = steps;
++iterator;
}
}
void aufgabe2() {
std::cout << "\nAufgabe 2\n";
unsigned int max_iter = 10000;
unsigned int thread_count = 4;
std::vector<std::thread> threads(thread_count);
std::vector<unsigned int> results(max_iter);
std::cout << "Computing with " << thread_count << " threads" << std::endl;
int i = 0;
for (std::thread &thread: threads) {
std::vector<unsigned int>::iterator start = results.begin() + max_iter/thread_count * i;
thread = std::thread(task, max_iter/thread_count, &results, start);
i++;
}
for (std::thread &thread: threads) {
thread.join();
}
std::ofstream out;
out.open("out-2a.csv");
for (unsigned int count: results) {
out << count << std::endl;
}
out.close();
std::cout << "Siehe Plot" << std::endl;
}
令人费解的是,我添加的线程越多,它就越慢。有4个线程,我得到这个:
real 0m5.691s
user 0m3.784s
sys 0m10.844s
而单线程:
real 0m1.145s
user 0m0.816s
sys 0m0.320s
我意识到在 CPU 内核之间移动数据可能会增加开销,但vector
应该在启动时声明,而不是在中间修改。是否有任何特殊原因导致多核上的速度变慢?
我的系统是 i5-2550M,它有 4 个内核(2 + 超线程),我使用 g++ (Ubuntu/Linaro 4.7.3-1ubuntu1) 4.7.3
更新
我看到不使用线程 (1),它将有很多用户负载,而使用线程 (2),它将具有比用户负载更多的内核:
10K 次运行:
http://wstaw.org/m/2013/05/08/stats3.png
10 万次运行:
http://wstaw.org/m/2013/05/08/Auswahl_001.png
运行 10 万次后,我得到以下信息:
根本没有线程:
real 0m28.705s
user 0m28.468s
sys 0m0.112s
程序的每个部分都有一个线程。这些部分甚至不使用相同的内存,所以我对同一个容器的并发性也应该被淘汰。但这需要更长的时间:
real 2m50.609s
user 2m45.664s
sys 4m35.772s
因此,虽然三个主要部分占用了我的 CPU 的 300%,但它们占用的时间是原来的 6 倍。
运行 100 万次,就可以了real 4m45
。real 20m
我之前跑过 1M ,如果没有,至少也需要real 30m
.