7

基于这个问题,我假设创建新进程应该几乎和在 Linux中创建新线程一样快。然而,很少的测试显示出非常不同的结果。这是我的代码:

from multiprocessing import Process, Pool
from threading import Thread

times = 1000

def inc(a):
    b = 1
    return a + b

def processes():
    for i in xrange(times):
        p = Process(target=inc, args=(i, ))
        p.start()
        p.join()

def threads():
    for i in xrange(times):
        t = Thread(target=inc, args=(i, ))
        t.start()
        t.join()

测试:

>>> timeit processes() 
1 loops, best of 3: 3.8 s per loop

>>> timeit threads() 
10 loops, best of 3: 98.6 ms per loop

因此,创建过程几乎要慢 40 倍!为什么会这样?它是特定于 Python 还是这些库?还是我只是误解了上面的答案?


UPD 1.使它更清楚。我知道这段代码实际上并没有引入任何并发性。这里的目标是测试创建进程和线程所需的时间。要在 Python 中使用真正的并发,可以使用如下内容:

def pools():
    pool = Pool(10)
    pool.map(inc, xrange(times))

它的运行速度确实比线程版本快得多。


UPD 2.我添加了以下版本os.fork()

for i in xrange(times):
    child_pid = os.fork()
    if child_pid:
        os.waitpid(child_pid, 0)
    else:
        exit(-1)

结果是:

$ time python test_fork.py 

real    0m3.919s
user    0m0.040s
sys     0m0.208s

$ time python test_multiprocessing.py 

real    0m1.088s
user    0m0.128s
sys     0m0.292s

$ time python test_threadings.py

real    0m0.134s
user    0m0.112s
sys     0m0.048s
4

3 回答 3

5

您链接到的问题是比较仅调用fork(2)vs.的成本pthread_create(3),而您的代码做得更多,例如join()用于等待进程/线程终止。

如果,如你所说...

这里的目标是测试创建进程和线程所需的时间。

...那么你不应该等待他们完成。您应该使用更像这些的测试程序...

叉子.py

import os
import time

def main():
    for i in range(100):
        pid = os.fork()
        if pid:
            #print 'created new process %d' % pid
            continue
        else:
            time.sleep(1)
            return

if __name__ == '__main__':
    main()

线程.py

import thread
import time

def dummy():
    time.sleep(1)

def main():
    for i in range(100):
        tid = thread.start_new_thread(dummy, ())
        #print 'created new thread %d' % tid

if __name__ == '__main__':
    main()

...给出以下结果...

$ time python fork.py
real    0m0.035s
user    0m0.008s
sys     0m0.024s

$ time python thread.py
real    0m0.032s
user    0m0.012s
sys     0m0.024s

...因此线程和进程的创建时间没有太大差异。

于 2013-07-02T14:11:06.330 回答
2

是的,它是真实的。启动一个新流程(称为重量级流程)的成本很高。

作为一个概述...

操作系统必须(在 linux 的情况下)派生第一个进程,设置新进程的记帐,设置新堆栈,进行上下文切换,复制任何更改的内存,并在新的进程返回。

线程只是分配一个新的堆栈和线程结构,进行上下文切换,并在工作完成时返回。

...这就是我们使用线程的原因。

于 2013-07-02T13:04:00.083 回答
1

根据我的经验,创建线程(使用pthread_create)和分叉进程之间存在显着差异。

例如,我使用如下线程代码创建了一个类似于您的 python 测试的 C 测试:

pthread_t thread; 
pthread_create(&thread, NULL, &test, NULL); 
void *res;
pthread_join(thread, &res);

并像这样处理分叉代码:

pid_t pid = fork();
if (!pid) {
  test(NULL);
  exit(0);
}         
int res;
waitpid(pid, &res, 0);

在我的系统上,分叉代码的执行时间大约是原来的 8 倍。

然而,值得注意的是,python 的实现速度甚至更慢——对我来说,它的速度大约慢了 16 倍。我怀疑这是因为除了创建新进程的常规开销之外,还有更多与新进程相关的 python 开销。

于 2013-07-02T13:30:45.360 回答