8

在Saha 等人的Tez 论文中,显示了带有 Tez 的 Hadoop 2 的以下模块化架构:

带有 Tez 的 Hadoop 2

为什么有人会在 Tez 上运行 Spark/Flink?

有什么优势?更好地利用 YARN?

4

1 回答 1

2

如果我理解正确,在 tez 上运行 spark 理论上可以导致更好的 DAG。例如,这可以应用于机器学习迭代。

相关段落如下。

我们能够将编译后的 Spark DAG 编码为 Tez DAG,并在未运行 Spark 引擎服务的 YARN 集群中成功运行它。用户定义的 Spark 代码被序列化为 Tez 处理器有效负载并注入到反序列化和执行用户代码的通用 Spark 处理器中。这允许未经修改的 Spark 程序使用 Spark 自己的运行时运算符在 YARN 上运行……Tez 会话还通过将每次迭代的 DAG 提交到共享的 Tez 会话,使 Spark 机器学习迭代能够高效运行。这项工作是一个实验原型,不是 Spark 项目的一部分

话虽如此,这种组合似乎从未在实验环境之外实施过,因此即使有充分的理由将 Tez 与 Spark 等工具结合起来,目前也无助于任何项目。

此外,我个人的期望是,除非您有非常具体的工作负载,否则如果 Tez DAG 明显优于普通 Spark DAG,我会感到惊讶。

于 2017-08-08T11:18:23.463 回答