0

我正在收集不同 ETL 工具(Informatica、DataStage、Ab Initio)在可用性和性能方面的比较,我曾研究过informaticaAb Initio,在网络帮助下,我能够找到关键的基本因素和它们之间的差异二,但是我在DataStage Vs Ab Initio上找不到任何有用的东西,我所做的如下:

1. DS supports one type of parallelism where Ab-Initio supports 3(data,component,pipeline)

2. Debugging is a lot easir in Ab-Initio as it has error port on all components.

3. Ab Initio works well with masive volume than DS

任何人都可以帮助我收集更多的差异,架构方面,性能方面还是其他方面?

4

1 回答 1

0

我对 Ab-Initio 一无所知。但只能评论你的观点。

1) 从技术上讲,DataStage 支持两种类型的数据流:数据流水线(想想服务器作业)和并行分区(并行作业),具有重新分区功能等等,您可以在一个作业中混合这两个概念。但是,与知道自己在做什么的开发人员相比,有更多的能力。通过使用对服务器/并行作业进行排序的序列器作业,可以很容易地在 DS 中实现/复制组件并行性(假设它在后台如何工作)。有了它,您可以并行运行多个并行/服务器作业,每个作业都可以处理数据流。您甚至可以将单个并行作业重复运行到许多实例中,以便一个作业设计可以一次在许多实例中运行。每个实例使用不同的元数据运行。

因此,如果您使用这样的并行作业,您不仅可以实现组件并行性,而且每个组件都作为自己的并行分区流运行。这允许海量数据处理能力。见第三点。

2)手头有一些工具和方法可以调试单个作业:当然有作业运行日志详细说明作业中每个阶段的日志输出,还有一个阶段可以窥视(输出)数据样本到同一日志因此您可以在实际日志中看到数据值,还有您的 IDE 样式断点调试器,您可以在其中在作业中设置断点,并且作业在运行期间在该断点处停止,您可以在那里评估您的记录,以及其他开发人员最佳实践,以最好地分阶段开发您的工作,越来越大,以降低难以解决的错误的机会。您还可以禁用将日志汇总到摘要中,以便您可以在作业日志中获取每个阶段的详细日志。每个阶段都输出它自己的日志。

3)Information Server(特别是datastage)已经进入大数据和云数据处理领域(从昨天刚刚发布的11.7.0.1版本开始)。它能够在本地和云端处理海量数据(结构化和非结构化)。无论您的数据是在传统数据库中、是非结构化源、在 Amazon S3 中还是在 Hive(在 hadoop 上)中,都可以在海量并行流中进行严格处理。将它的连接范围和并行处理能力与处理引擎的线性可扩展能力相结合。您可以将 Information Server(即 datastage)配置为作为 Grid 计算机运行。允许真正强大的容量处理能力。我不确定 Ab-Initio 是否能够做到这一点。

顺便说一句,如果可以的话:我觉得人们在将 datastage 视为与 Ab-Initio 或 Informatica 之类的工具相比时犯了一个错误。DataStage 只是 IBM Information Server 工具套件的一个组件(包含许多工具)。当你这样看时,我认为没有什么可以比较的。

没有任何东西可以管理元数据和数据沿袭,并在企业中如此多的工具、角色和功能之间共享它,从而为企业构建一个整体图景。例如,如果您要签入或签出作业,则使用 DataStage 附带的名为 Information Server Manager 的单独工具(用于环境间部署、包部署、版本控制等)。它集成到独立的版本控制系统中。如果您使用(非常)新的 Flow Designer(基于 Web 的 DataStage 版本)。您实际上可以提交到 Git 存储库。

甚至没有涉及如何使用套件中其他工具的功能将 DataStage 作业公开为 Web 服务。或者使用 DataStage 和 Data Replication 工具设置实时处理。

只是一些(大量的)示例为什么查看信息服务器本身的 ETL 而不仅仅是 DataStage 是有益的。

于 2018-06-14T13:31:35.230 回答