amazon-web-services - Hive 中的 Tez 执行引擎与 Mapreduce 执行引擎

Question

Hive 中的 Tez 引擎和 Map Reduce 引擎有什么区别，在哪个进程中使用哪个引擎更好（例如：joins、aggregation？）

score 6 · Accepted Answer

Tez 是一个 DAG（有向无环图）架构。一个典型的 Map reduce 作业有以下步骤：

Tez 的工作方式与 Spark 非常相似（Tez 是在 Spark 之前由 Hortonworks 创建的）：

只有一读一写。

通过不多次进入磁盘来提高效率。中间结果存储在内存中（不写入磁盘）

score 3 · Accepted Answer

Tez 是一个基于 DAG 的系统，它以一种在开始执行之前优化这些操作的方式了解所有操作。

MapReduce 模型简单地指出，任何计算都可以通过两种计算步骤来执行——map 步骤和 reduce 步骤。一对 map 和 reduce 对数据进行一级聚合。复杂的计算通常需要多个这样的步骤。

Tez 通常在 MaprReduce 下运行，因此它只是一个优化的 MapReduce，步骤更少且紧凑。

score 1 · Accepted Answer

Apache Tez 与 MapReduce 插件兼容，但减少了磁盘访问量。Tez 总是比 MapReduce 好。

不过也有比 Hive + Tez 更好的系统，比如 Spark SQL。

3 回答 3