0

标准 memoize 装饰器中的缓存是否安全?

例如,假设我定义了以下装饰器:

import functools

def memoize(func):
    cache = {}
    @functools.wraps(func)
    def memoized(*args):
        result = None
        if args in cache:
            result = cache[args]
        else:
            result = func(*args)
            cache[args] = result
        return result
    return memoized

并假设我正在尝试使用它来加速递归函数的计算,例如:

@memoize
def fib(n):
    result = 1
    if n > 1:
        result = fib(n-1) + fib(n-2)
    return result

现在我想知道计算 fib() 的两个进程是否会发生冲突?例如:

if __name__ == "__main__":
    from multiprocessing import Process
    p1 = Process(target=fib, args=(19,))
    p2 = Process(target=fib, args=(23,))
    p1.start()
    p2.start()
    p1.join()
    p2.join()

我的第一个想法是缓存保存在 fib 的上下文中,因此它在进程之间共享,这可能导致竞争条件。但是,我认为可能发生的最坏情况是,他们都会认为,比如说,fib(17) 尚未计算,并且都会继续并行计算并一个接一个地存储相同的结果-不理想,但并不可怕,我猜。但我仍然想知道是否有办法以过程安全的方式来做到这一点。

编辑:我在 memoized() 的每个分支中添加了一个打印语句,似乎每个进程都重新计算了缓存中的所有 fib 值。或许缓存不是共享的,毕竟?如果它没有被共享,我会想如果有一种过程安全的方式来共享它(以节省更多的计算)。

4

1 回答 1

0

默认情况下,Python 中的多进程程序在进程之间共享很少。共享的少数东西是pickled,它有其自身的一些限制。您的示例中的fib函数名义上是共享的,但pickle按名称而不是按值存储函数。这就是为什么它的缓存不被共享的原因。

如果你想为你的memoize装饰器有一个同步缓存,你需要向它添加同步,例如 amultiprocessing.Queuemultiprocessing.Array. 不过,这可能比简单地让每个进程重新计算值要慢,因为它会在进程来回传递更新时引入大量开销。

或者,如果您不需要单独的进程在运行时紧密同步,您可以提出一种在进程启动和停止时将缓存传入和传出进程的方法(例如,使用额外的参数并返回value),因此即使并行调用没有,顺序调用也可以从记忆中受益。

于 2013-02-06T23:38:42.807 回答