1

我有一个针对单个文件迭代运行的 hadoop 作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在 HADOOP 中休耕的最佳做法是什么。

4

1 回答 1

0

您可以参考解决迭代 map reduce的项目haloop 。然后,如果文件很大,请继续使用 haloop,否则您可能会合并小文件以获得更好的性能。

于 2012-12-13T14:36:46.117 回答