我们一直在使用级联框架来创建 ETL。
级联给出。
- 优化连接
- 并行运行作业
- 创建检查点
- 开发人员可以使用他们喜欢的语言(java、ruby、scala、clojure)
- 单元测试。
现在我们有两个选项将一些 X ETL(成本高昂)作业转换为 hadoop 作业
- 级联工作流程。
- 人才招聘。
我的问题是。
- Talend 使用 pig、hive 等作为组件来创建作业。那么我们在性能上是否有一些好处,或者 talend 有没有即兴发挥呢?
- 就 Talend 而言,我们是否需要担心单元测试(Cascading 框架提供哪些)?
- 如果我们选择 Talend 而不是级联来创建作业(将 X ETL 转换为 hadoop 作业),那么它是一个不错的选择。
将 X ETL 转换为级联工作流将需要创建给定 X ETL 中可用的所有组件,但这将是一次性活动。然后我们需要考虑 Talend Studio 提供的其他功能,例如:
a. Data quality. b. Data Profiling. c. Data lineage, etc.
- 就可维护性而言,级联作业管理得很好,任何人都可以提供一些有关 talend 的信息。
底线是我正在创建一个从 X ETL 到 hadoop 作业的转换工具。我需要从 Cascading 框架或 Talend 中进行选择。