3

我们一直在使用级联框架来创建 ETL。

级联给出。

  1. 优化连接
  2. 并行运行作业
  3. 创建检查点
  4. 开发人员可以使用他们喜欢的语言(java、ruby、scala、clojure)
  5. 单元测试。

现在我们有两个选项将一些 X ETL(成本高昂)作业转换为 hadoop 作业

  1. 级联工作流程。
  2. 人才招聘。

我的问题是。

  1. Talend 使用 pig、hive 等作为组件来创建作业。那么我们在性能上是否有一些好处,或者 talend 有没有即兴发挥呢?
  2. 就 Talend 而言,我们是否需要担心单元测试(Cascading 框架提供哪些)?
  3. 如果我们选择 Talend 而不是级联来创建作业(将 X ETL 转换为 hadoop 作业),那么它是一个不错的选择。
  4. 将 X ETL 转换为级联工作流将需要创建给定 X ETL 中可用的所有组件,但这将是一次性活动。然后我们需要考虑 Talend Studio 提供的其他功能,例如:

    a. Data quality.
    b. Data Profiling.
    c. Data lineage, etc.
    
  5. 就可维护性而言,级联作业管理得很好,任何人都可以提供一些有关 talend 的信息。

底线是我正在创建一个从 X ETL 到 hadoop 作业的转换工具。我需要从 Cascading 框架或 Talend 中进行选择。

4

1 回答 1

0

我不能回答你所有的问题,但我可以给你我的经验回报。使用 Talend 开发比 From Wark 或本地语言最有效率,并且源代码最容易维护,因为组件经过优化并且您的工作的 IDE 非常清晰。调试功能很好,你可以一步一步调试,你可以生成源代码。

对我来说,不方便的是配置管理,Talend 与许多分支合作并不是很成功。

于 2013-07-17T07:39:47.343 回答