2

我有一个托管在网络存储设备上的大型目录结构,我想使用os.walk. 系统相当慢,但我认为如果我可以同时查询多个目录(都具有相同的公共根目录),这个过程可以更快地完成。我不在乎输出的顺序是什么,只要到最后我已经解析了所有内容。

我正在考虑重新实现os.walk以将新目录传递到线程工作人员池中。如果它已经存在,我宁愿使用别人的代码(为什么要重新发明轮子?),但没有遇到任何。

当然这是一个常见的任务?有没有人遇到过这样的事情?也许我错过了一些东西,它不会导致加速。

如果我在一周左右没有得到答案,毫无疑问我会在这里发布我的尝试。

4

1 回答 1

1

看来您需要一个分布式作业执行系统。我使用Gearman已经有一段时间了,发现它是一个很棒的框架,如果你不想从基本的 Thread 模块开始,我会推荐它。它支持用 Python 编写的客户端和工作人员,因此可能适合您的需求。但是你可能仍然需要做除法工作。

于 2013-03-20T11:31:27.037 回答