Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我对 conext.write 如何在 hadoop reducer 中工作感到困惑。如果所有人都写入 HDFS 中的同一个文件,为什么 hadoop 减速器中没有锁定问题(如果有超过 1 个减速器)?
通常,如果我们自己在 hadoop mapper/reducer 中写入同一个文件,我们会遇到无法同时写入同一个文件的锁定错误。
如果您的 map reduce 程序在多节点集群上运行,那么每个节点上都会运行唯一的 Map 和 Reduce 程序。
Map Reduce 中的 Reduce 不直接写入文件本身。它将这个任务委托给负责数据下沉的 OutputFormat。它可以是文件、数据库表或任何其他位置。FileOutputFormat 将下沉到 Hadoop 分布式文件系统 (HDFS) 中的某个位置。DBOutputFormat 将下沉到数据库表(阅读这篇文章)。
有关文件锁定的问题,请查看 Yahoo Developer Network 上的这篇文章。
我有两列,Entry和text_image,在一个表中。当循环查看数组中的所有行时,我可以获得结果,但我希望它添加/images到文本以img. 这是为了将具有“img”(表示行内的文本)的行定向到正确的文件夹。可能需要进一步解释来说明原因,但我不会深
Entry
text_image
/images
img