我的 Hadoop 程序的映射阶段会生成大量唯一键(一个数据集大约 200K 键,另一个数据集大约 900K)。每个键都是一个包含 60 个数字字符的字符串值。我的 Hadoop 程序的排序/改组阶段花费的时间太长。对于如此多的键,有什么方法可以使排序/改组阶段更有效吗?
2 回答
您应该考虑使用组合器来减少网络的过热,组合发送到减速器的“映射阶段”输出。
关于 WritableComparator,你是对的,最好实现你的,因为据我所知,在排序阶段比较两个对象的方式是,一旦序列化对象(映射器的输出),Hadoop 以便给出和排序,必须对它们进行反序列化,因此最好避免“反序列化阶段”并在字节级别进行比较。
您必须小心覆盖compare
from的方法WritableComparable
,因为要正确执行它可能非常具有挑战性,我所指的方法 from GrepCode
:
编辑
我添加了一篇我认为很棒的文章,以对提高 MapReduce 的性能提出一些建议:
http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/
您可能应该创建一个自定义键类型。这有几个原因:
- 通过使用数字(二进制)键,您可以实现
Comparable<BinaryComparable>
,它比较字节而不是文本,从而提高速度 - 您可以将密钥以二进制格式写入,这样可以节省传输和读取密钥的时间。如果我们要编写一个关键类,我们可以扩展
BytesWritable
,它已经实现了我在第一个项目符号中提到的接口。
您可能应该调整一些作业参数。例如,您可能需要考虑调整io.sort
工作中的选项。因为你有很多独特的值,Hadoop 可能无法在内存中对它们进行排序,这意味着它必须溢出到磁盘。发生这种情况时,必须重新读取数据并重新排序,从而减慢 shuffle。您可以通过查看日志来判断是否发生了溢出,因为溢出已被记录。有关调整提示,请参阅http://www.slideshare.net/cloudera/mr-perf