0

我有一个相对较大的文件 - 大约 10GB 需要处理。我怀疑它不适合我笔记本电脑的 RAM,如果 MRJob 决定在 RAM 或类似的东西中对其进行排序。

同时,我不想设置 hadoop 或 EMR - 工作并不紧急,我可以在睡觉前简单地启动 worker,并在第二天早上得到结果。换句话说,我对本地模式很满意。我知道,性能不会完美,但现在还可以。

那么它可以在一台弱机器上处理这样的“大”文件吗?如果是 - 您建议做什么(除了设置自定义 tmp 目录以指向文件系统,而不是指向会很快耗尽的 ramdisk)。假设我们使用 0.4.1 版本。

4

1 回答 1

1

我认为 RAM 大小不会成为 mrjob 的 python 运行器的问题。每个步骤的输出都应该写到磁盘上的临时文件中,所以我相信它不应该填满 RAM。将输出转储到磁盘是 Hadoop 应该采用的方式(以及由于 IO 导致速度慢的原因)。所以我会运行这项工作,看看它是如何进行的。

如果 RAM 大小是一个问题,您可以在笔记本电脑上创建足够的交换空间以使其至少运行,如果分区不在 SSD 上会很慢。

于 2014-05-06T09:09:01.557 回答