现在我正在编写一些 Python 代码来处理大量的 twitter 文件。这些文件太大了,无法放入内存。与他们合作,我基本上有两个选择。
我可以将文件拆分成可以放入内存的较小文件。
我可以逐行处理大文件,因此我不需要一次将整个文件放入内存中。为了便于实施,我更喜欢后者。
但是,我想知道将整个文件读入内存然后从那里操作它是否更快。似乎不断地从磁盘逐行读取文件可能会很慢。但话又说回来,我并不完全理解这些过程在 Python 中是如何工作的。有谁知道逐行读取文件是否会导致我的代码比我将整个文件读入内存并从那里操作它慢?