Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个针对单个文件迭代运行的 hadoop 作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在 HADOOP 中休耕的最佳做法是什么。
您可以参考解决迭代 map reduce的项目haloop 。然后,如果文件很大,请继续使用 haloop,否则您可能会合并小文件以获得更好的性能。