mrjob - 我可以使用 MRJob 在本地模式下处理大文件吗？

Question

我有一个相对较大的文件 - 大约 10GB 需要处理。我怀疑它不适合我笔记本电脑的 RAM，如果 MRJob 决定在 RAM 或类似的东西中对其进行排序。

同时，我不想设置 hadoop 或 EMR - 工作并不紧急，我可以在睡觉前简单地启动 worker，并在第二天早上得到结果。换句话说，我对本地模式很满意。我知道，性能不会完美，但现在还可以。

那么它可以在一台弱机器上处理这样的“大”文件吗？如果是 - 您建议做什么（除了设置自定义 tmp 目录以指向文件系统，而不是指向会很快耗尽的 ramdisk）。假设我们使用 0.4.1 版本。

score 1 · Accepted Answer

我认为 RAM 大小不会成为 mrjob 的 python 运行器的问题。每个步骤的输出都应该写到磁盘上的临时文件中，所以我相信它不应该填满 RAM。将输出转储到磁盘是 Hadoop 应该采用的方式（以及由于 IO 导致速度慢的原因）。所以我会运行这项工作，看看它是如何进行的。

如果 RAM 大小是一个问题，您可以在笔记本电脑上创建足够的交换空间以使其至少运行，如果分区不在 SSD 上会很慢。

1 回答 1