正如tez的 github 页面所说,tez 非常简单,其核心只有两个组件:
数据处理管道引擎,以及
数据处理应用程序的主机,可以将上述任意数据处理“任务”组合成一个任务-DAG
那么我的第一个问题是,tez-examples.jar 中存在的诸如 wordcount 之类的现有 mapreduce 作业如何转换为 task-DAG?在哪里?或者他们不……?
我的第二个也是更重要的问题是关于这部分:
tez 中的每个“任务”都有以下内容:
- 用于使用键/值对的输入。
- 处理器来处理它们。
- 输出以收集处理后的键/值对。
谁负责在 tez 任务之间拆分输入数据?是用户提供的代码还是 Yarn(资源管理器)甚至是 tez 本身?
输出阶段的问题是相同的。提前致谢