0

我正在使用 hadoop 版本:1.0.0

在处理每个减速器输入键后,我正在收集输出。但它没有写入实际的输出文件。我正在尝试使用处理后的中间输出来处理进一步的输入键。我该怎么做?

您能否建议我如何使用该中间数据。mapreduce 何时将数据写入输出文件?

4

1 回答 1

0

你所问的是与 MR 范式相反的东西。并且,任何偏离这一概念的行为都会产生后果。
从技术上讲,数据被传递给 OutputFormat,他可以自行决定将其推送到输出。我认为它是在工作期间写的,但是您可能会有些延迟才能看到它。
我认为您可以更轻松地在 reducer 中随意累积处理过的数据并使用它,尽管此解决方案存在固有问题。如果有足够的键,您可能会面临内存不足。
我建议使用两个 MR 作业或其他一些技术来使 reducer 无状态或至少限制它可以积累的数据量。

于 2012-05-06T07:59:38.517 回答