hadoop - 猪：慢分组运算符

Question

在对 Hive 和 Pig 进行基准测试后，我发现 Pig 中的 Group By 运算符比 Hive 慢得多。我想知道有没有人有同样的经历？以及人们是否有任何提高此操作性能的提示？（按照此处较早的帖子的建议添加 DISTINCT 并没有帮助。我目前正在重新运行启用 LZO 压缩的基准测试）。

score 0 · Accepted Answer

看来你看错了。Group By 只是以某种方式对数据进行分组，之后做什么非常重要。在尝试分析 Pig 中的性能时，您应该牢记以下几点：

1）几个语句可以合并成一个MR作业，所以不要看语句，看生成的MR作业的性能。

2）性能上的巨大差异应该是有原因的。这可能是：

2.1 不同的输入格式，在对 Pig vs Hive 进行基准测试时的其他情况。

2.2 组合器由于某种原因被禁用： http ://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used 在大多数情况下这恰好是我的瓶颈。

根据我的经验，Pig/Hive 的性能没有太大差异。

1 回答 1