在对 Hive 和 Pig 进行基准测试后,我发现 Pig 中的 Group By 运算符比 Hive 慢得多。我想知道有没有人有同样的经历?以及人们是否有任何提高此操作性能的提示?(按照此处较早的帖子的建议添加 DISTINCT 并没有帮助。我目前正在重新运行启用 LZO 压缩的基准测试)。
问问题
344 次
1 回答
0
看来你看错了。Group By 只是以某种方式对数据进行分组,之后做什么非常重要。在尝试分析 Pig 中的性能时,您应该牢记以下几点:
1)几个语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。
2)性能上的巨大差异应该是有原因的。这可能是:
2.1 不同的输入格式,在对 Pig vs Hive 进行基准测试时的其他情况。
2.2 组合器由于某种原因被禁用: http ://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used 在大多数情况下这恰好是我的瓶颈。
根据我的经验,Pig/Hive 的性能没有太大差异。
于 2013-09-04T11:50:34.740 回答