4

我打算使用多处理来读取一组具有 Python 多处理功能的小文件。然而,这在某种意义上对我来说很尴尬,因为如果磁盘是旋转的,那么瓶颈就是旋转时间,即使我使用多个进程,总读取时间应该与单进程读取相似。我错了吗 ?你有什么意见?

另外,您是否认为使用多处理可能会导致文件的交织读取,因此这些文件的内容会以某种方式倾斜?

4

2 回答 2

0

您的推理是合理的,但确定的唯一方法是通过基准测试(也就是说,并行读取许多小文件不太可能比顺序读取它们提高性能)。

我不完全确定你所说的“交织阅读”是什么意思,但是——除非你的代码中存在错误或者在你阅读它们时文件被更改——无论你如何阅读,你都会得到完全相同的内容它。

于 2014-12-01T12:10:19.507 回答
0

您确实是对的,瓶颈将是disk-IO

然而,真正知道的唯一方法是测量这两种方法。

如果您对文件有影响,则可以选择一个较大的文件,而不是许多较小的文件。

于 2014-12-01T12:10:54.873 回答