我正在考虑在 hadoop 中构建一个小型测试应用程序来掌握系统的窍门。
我想到的应用程序将在统计领域。我想从我的减速器函数中获得“每个键的 10 个最差值”(我必须假设某些键可能存在大量值)。
我的计划是进入我的减速器的值基本上是“实际值”和“实际值的质量/相关性”的组合。基于相关性,我“简单地”想要取 10 个最差/最好的值并将它们从减速器中输出。
我该怎么做(假设特定键有大量值)?有没有一种方法可以在将所有值发送到减速器之前对其进行排序(并且在我读取前 10 个时停止读取输入)或者必须以不同的方式完成?
有人可以指出我可以查看的一段示例代码吗?
更新:我发现了两个有趣的 Jira 问题HADOOP-485和HADOOP-686。
任何人都有关于如何在 Hadoop 0.20 API 中使用它的代码片段?