hadoop - 性能：猪与蜂巢

Question

我发现了 Pig 和 Hive 之间的一些（显着）性能差异（在实时运行时间和 CPU 时间方面），并且正在寻找解决这些差异的方法。我使用了两种语言的解释功能（即 Hive：EXPLAIN 关键字，Pig：pig -e 'explain -script explain.pig'）来对比和比较生成的语法树、逻辑、物理和 map-reduce 计划。然而，两者似乎都做同样的事情。然而，作业跟踪器显示启动的 map 和 reduce 任务的数量存在差异（因此我确保两者使用相同数量的 map 和 reduce 任务并且性能差异仍然存在）。因此，我的问题是：我可以通过哪些其他方式分析正在发生的事情（可能在较低级别/字节码级别）？

编辑：我正在运行 TPC 的 TPC-H 基准测试（可用https://issues.apache.org/jira/browse/PIG-2397和https://issues.apache.org/jira/browse/HIVE-600）。然而，更简单的脚本也显示出相当大的性能差异。例如：

SELECT (dataset.age * dataset.gpa + 3) AS F1,
  (dataset.age/dataset.gpa - 1.5) AS F2 
  FROM  dataset
  WHERE dataset.gpa > 0;

我仍然需要全面评估 TPC-H 基准（稍后会更新），但更简单脚本的结果在本文档中有详细说明：https ://www.dropbox.com/s/16u3kx852nu6waw/output.pdf

（jpg：http: //i.imgur.com/1j1rCWS.jpg）

score 3 · Accepted Answer

我之前读过一些 Pig 和 Hive 的源代码。我可以分享一些意见。

由于我关注的是 Join 实现，所以在这里我可以提供 Pig 和 Hive 的 Join 实现的一些细节。Hive 的 Join 实现效率低于 Pig。我不知道为什么 Hive 需要在 Join 实现中创建这么多对象（这样的操作非常慢，应该避免）。我认为这就是 Hive 的加入速度比 Pig 慢的原因。如果你对它感兴趣，可以自行查看CommonJoinOperator代码。所以我猜 Pig 通常更高效，因为它的高质量代码。

hadoop - 性能：猪与蜂巢

1 回答 1

Related

Reference