0

寻找适用于 200 多个分布式系统(Windows、AS400、Linux 等)的 ETL 系统的任何建议。

我们每个月从所有客户(无论系统类型如何)收集数据,将其带回,一起处理,然后将聚合解决方案发回给他们。我的任务是自动化这个系统 - 关于如何稳健地做到这一点的任何建议,我真的不想重新发明轮子。我不拥有我从中提取数据的任何系统,这使这项任务变得更加困难,但可以安装客户端。

我已经在 J​​ava 中创建了一个原型客户端/服务器架构,并使用 FTP 进行传输,但我觉得它很脆弱。我应该注意到,不同系统的所有提取/转换代码已经存在于 Java 中(尽管是遗留的)。

我应该提到我们目前每月提取一次数据,但正在努力每周。

任何见解都值得赞赏。

4

1 回答 1

0

我认为这将取决于项目将如何发展。如果这个项目将增加更多的要求并且涉及一些资金,那么 ETL 工具可能是个好主意。

但是,如果您现在有固定的输出(报告)并且不打算去任何地方,那么自定义 ETL 可能是值得的。原因是大多数 ETL 工具具有各种输出格式(图表、文本文件等)和使用工具的便利性,但底线是数据移动部分几乎适用于所有工具。即使使用任何其他 ETL 工具,您也需要实现您现在正在执行的相同查询,并且您需要学习该工具。谁知道?一些工具可能涉及 200 多个站点安装。

最近,我们公司花了很多钱购买报告工具和服务器和人力资源来构建良好的 ETL,因为我们内部的 ETL 因速度慢和不专业而受到批评(你知道它没有使用流行的 ETL 工具。它是一堆脚本命令)。花费了所有的钱,该项目几乎陷入了死胡同。

还有一件事。我不明白 Java 和 FTP 是如何参与这个过程的。您可以使用 SQL 直接连接客户系统中的数据库吗?如果可以的话,使用 SQL 和存储过程总是比使用 JAVA 和 FTP 更好。

希望它会有所帮助。

于 2010-03-18T17:42:12.363 回答