我有一个可以同时运行多个作业的用例。所有作业的输出都必须与 HDFS(包含键值对)中没有重复的通用主文件合并。我不确定如何避免在这种情况下可能出现的竞争条件。例如,作业 1 和作业 2 同时将相同的值写入主文件,从而导致重复。感谢您对此的帮助。
问问题
439 次
1 回答
1
Apache Hadoop 不支持并行写入同一文件。这是参考。
HDFS 中的文件是一次性写入的,并且在任何时候都严格只有一个写入器。
因此,多个地图/作业不能同时写入同一个文件。必须编写另一个作业/shell 或任何其他程序来合并多个作业的输出。
于 2012-11-01T02:54:16.530 回答