1

我是一名大学新生和 Python 新手,所以请多多包涵。我正在尝试并行化一些矩阵运算。这是我使用 ParallelPython 模块的尝试:

 def testfunc(connectionMatrix, qCount, iCount, Htry, tStepCount):
        test = connectionMatrix[0:qCount,0:iCount].dot(Htry[tStepCount-1, 0:iCount]) 
        return test  

    f1 = job_server.submit(testfunc, (self.connectionMatrix, self.qCount, self.iCount, self.iHtry, self.tStepCount), modules = ("scipy.sparse",))
    f2 = job_server.submit(testfunc, (self.connectionMatrix, self.qCount, self.iCount, self.didtHtry, self.tStepCount), modules = ("scipy.sparse",))
    r1 = f1()
    r2 = f2()
    self.qHtry[self.tStepCount, 0:self.qCount] = self.qHtry[self.tStepCount-1, 0:self.qCount] + self.delT * r1 + 0.5 * (self.delT**2) * r2

似乎有一条正态曲线,x 轴上的矩阵大小和 y 轴上的加速百分比。在 100x100 矩阵上,它似乎以 30% 的速度增加为上限。越来越小的矩阵导致增加的次数越少,并且足够小和足够大的矩阵,串行代码更快。我的猜测是,问题在于论点的传递。复制大矩阵的开销实际上比作业本身花费的时间更长。我能做些什么来解决这个问题?有没有办法结合内存共享和通过引用传递矩阵?如您所见,没有修改任何参数,因此它可以是只读访问。

谢谢。

4

1 回答 1

1

好吧,ParallelPython 的意义在于,您可以编写不关心它是否分布在线程、进程甚至多台计算机上的代码,并且使用内存共享会破坏这种抽象。

一种选择是使用共享文件系统上的文件之类的东西,您可以在每个工作人员中映射该文件。当然这更复杂,它的好坏取决于文件系统、共享协议和网络的许多细节,但这是一个选项。

如果你愿意放弃分布式处理的选项,你可以使用 multiprocessing.Array(或 multiprocessing、Value 或 multiprocessing.sharedctypes)来访问共享内存。但此时,您可能需要考虑仅使用多处理而不是 ParallelPython 来分配作业,因为多处理是标准库的一部分,并且具有更强大的 API,而且您明确放弃了 ParallelPython 的一个主要优势.

或者,您可以将这两个选项结合起来,在许多方面都是两全其美,但就您需要更改现有代码的程度而言,这可能是最好的:只需使用本地文件并将其映射。

但是,在您执行任何此操作之前,您可能需要考虑分析以查看复制矩阵是否真的是瓶颈。而且,如果是,您可能需要考虑是否有算法修复,只需复制每个作业需要的部分,而不是复制整个矩阵。(这是否有意义取决于每个工作所需的部分是否明显少于整个工作,当然。)

于 2012-07-20T01:56:41.323 回答