Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 hadoop 版本:1.0.0
在处理每个减速器输入键后,我正在收集输出。但它没有写入实际的输出文件。我正在尝试使用处理后的中间输出来处理进一步的输入键。我该怎么做?
您能否建议我如何使用该中间数据。mapreduce 何时将数据写入输出文件?
你所问的是与 MR 范式相反的东西。并且,任何偏离这一概念的行为都会产生后果。 从技术上讲,数据被传递给 OutputFormat,他可以自行决定将其推送到输出。我认为它是在工作期间写的,但是您可能会有些延迟才能看到它。 我认为您可以更轻松地在 reducer 中随意累积处理过的数据并使用它,尽管此解决方案存在固有问题。如果有足够的键,您可能会面临内存不足。 我建议使用两个 MR 作业或其他一些技术来使 reducer 无状态或至少限制它可以积累的数据量。