我有一个相对较大的文件 - 大约 10GB 需要处理。我怀疑它不适合我笔记本电脑的 RAM,如果 MRJob 决定在 RAM 或类似的东西中对其进行排序。
同时,我不想设置 hadoop 或 EMR - 工作并不紧急,我可以在睡觉前简单地启动 worker,并在第二天早上得到结果。换句话说,我对本地模式很满意。我知道,性能不会完美,但现在还可以。
那么它可以在一台弱机器上处理这样的“大”文件吗?如果是 - 您建议做什么(除了设置自定义 tmp 目录以指向文件系统,而不是指向会很快耗尽的 ramdisk)。假设我们使用 0.4.1 版本。