java - 如何在不缓存 hadoop 1.0.3 的情况下多次迭代 hadoop reduce 值？

Question

我有一个问题，我基本上想做这样的事情：

    public void reduce(Text key, Iterable<Text> iterValues, Context context){

           for (Text val : iterValues){
               //do something
           }

           iterValues.reset()
           for (Text val : iterValues){
               //do something else
           }
}

我知道最好避免这些情况，或者简单地在内存中实例化对象，但是我遇到了一个问题，我可能有太多东西要保存在内存中，而且将其分解为结构上会变得更加复杂更多减少步骤。

似乎我并不是唯一一个在寻找这个功能的人，事实上，它看起来像是一个不久前实现的功能： https ://issues.apache.org/jira/browse/HADOOP-5266

MarkableIterator 类似乎正是我正在寻找的：http ://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/MarkableIterator.html

然而，它似乎只在 hadoop 2.0.3-alpha 中可用。我希望在仅支持 1.0.3（我目前使用的）或 0.20.205 的 EMR 中运行它。我一直在尝试各种事情，但我在 1.0.3 中没有找到任何可以为我提供类似功能的东西。我最接近的是使用 StreamBackedIterator，它仍然在内存中累积对象，但似乎比 ArrayList 内存效率更高。

有人知道在 Hadoop 1.0.3 中执行此操作的方法吗？

score 1 · Accepted Answer

这有点小技巧，但是您可以让 Mapper 发出每个值两次，但在一个中设置一些标志，而不是另一个。然后首先根据该标志对值进行排序，然后根据您想要的任何自然排序。然后，一旦您达到第二组值，您就必须执行一些自定义逻辑来停止第一个循环。

除此之外，不，如果不简单地将它们自己存储在内存中，我看不到一种简单的方法。主要问题是迭代器实际上并没有返回新对象，它返回相同的对象，但在对next(). 在幕后，Hadoop 甚至可能不会缓存整组值，因此重置迭代器将需要重新扫描文件（我猜他们正在新版本中这样做）。

java - 如何在不缓存 hadoop 1.0.3 的情况下多次迭代 hadoop reduce 值？

1 回答 1

Related

Reference