python - 在 IPython 上执行某些函数比普通的 python 函数慢

Question

我正在测试 ipython 的一些功能，我认为我做错了什么。

我正在测试 3 种不同的方法来执行一些数学运算。

第一次使用@parallel.parallel(view=dview, block=True)和功能map
第二次使用单核函数（python普通函数）
3、使用客户端负载均衡功能

我有这个代码：

from IPython import parallel
import numpy as np
import multiprocessing as mp
import time

rc = parallel.Client(block=True)
dview = rc[:]
lbview = rc.load_balanced_view()

@parallel.require(np)
def suma_pll(a, b):
    return a + b

@parallel.require(np)
def producto_pll(a, b):
    return a * b

def suma(a, b):
    return a + b

def producto(a, b):
    return a * b

@parallel.parallel(view=dview, block=True)
@parallel.require(np)
@parallel.require(suma_pll)
@parallel.require(producto_pll)
def a_calc_pll(a, b):
    result = []
    for i, v in enumerate(a):
        result.append(
            producto_pll(suma_pll(a[i], a[i]), suma_pll(b[i], b[i]))//100
        )
    return result

@parallel.require(suma)
@parallel.require(producto)
def a_calc_remote(a, b):
    result = []
    for i, v in enumerate(a):
        result.append(
            producto(suma(a[i], a[i]), suma(b[i], b[i]))//100
        )
    return result

def a_calc(a, b):
    return producto(suma(a, a), suma(b, b))//100

def main_pll(a, b):
    return a_calc_pll.map(a, b)

def main_lb(a, b):
    c = lbview.map(a_calc_remote, a, b, block=True)
    return c

def main(a, b):
    c = []
    for i in range(len(a)):
        c += [a_calc(a[i], b[i]).tolist()]
    return c

if __name__ == '__main__':
    a, b = [], []

    for i in range(1, 1000):
        a.append(np.array(range(i+00, i+10)))
        b.append(np.array(range(i+10, i+20)))

    t = time.time()
    c1 = main_pll(a, b)
    t1 = time.time()-t

    t = time.time()
    c2 = main(a, b)
    t2 = time.time()-t

    t = time.time()
    c3 = main_lb(a, b)
    t3 = time.time()-t    

    print(str(c1) == str(c2))
    print(str(c3) == str(c2))
    print('%f secs (multicore)' % t1)
    print('%f secs (singlecore)' % t2)
    print('%f secs (multicore_load_balance)' % t3)

我的结果是：

True
True
0.040741 secs (multicore)
0.004004 secs (singlecore)
1.286592 secs (multicore_load_balance)

为什么我的多核程序比单核程序慢？这种方法有什么问题？我能做些什么来修复它？

一些信息：python3.4.1、ipython 2.2.0、numpy 1.9.0、ipcluster 使用 LocalEngineSetLauncher 启动 8 个引擎

score 1 · Accepted Answer

在我看来，您正在尝试并行化在单个内核上执行所需时间太短的东西。在 Python 中，任何形式的“真正”并行性都是多进程的，这意味着您必须生成多个 Python 解释器，通过酸洗/解酸等传输数据。

这将导致小型工作负载的显着开销。在我的系统上，Python 解释器刚启动然后立即停止大约需要 1/100 秒：

# time python -c "pass"

real    0m0.018s
user    0m0.012s
sys     0m0.005s

我不确定您使用的装饰器在幕后做什么，但正如您所见，仅设置并行工作的基础架构可能需要相当多的时间。

编辑

进一步检查，您似乎已经在运行代码之前设置了工作程序，因此上面暗示的开销可能超出了图片范围。

您正在将数据移动到工作进程，即 1000 个 NumPy 数组的两个列表。在我的系统上酸洗a和b连接字符串需要 ~0.13 秒pickle和 ~0.046 秒cPickle。可以通过将数组存储在 NumPy 数组而不是列表中来减少酸洗时间：

a = np.array(a)
b = np.array(b)

这将cPickle时间减少到 ~0.029 秒。

python - 在 IPython 上执行某些函数比普通的 python 函数慢

1 回答 1

Related

Reference