5

我一直在寻找 ETL 工具,在谷歌上发现了很多关于 Pentaho Kettle 的信息。

我还需要一个在 Star Schema 上运行的数据分析器,以便业务用户可以使用并生成任何类型的报告或矩阵。PentaHo Analyzer 再次看起来不错。

应用程序的其他部分将使用 java 开发,并且应用程序应该与数据库无关。

Pentaho 是否足够好,或者我应该检查其他工具。

4

4 回答 4

3

Pentaho 似乎相当稳固,提供整套 BI 工具,据报道,集成的改进正在进行中。但是......希望为其 BI 解决方案采用开源路线的公司也很可能最终使用开源数据库技术......从这个意义上说,“数据库不可知论”很容易成为一把双刃剑剑。例如,您可以在 Microsoft 的 Analysis Services 中开发一个多维数据集,因为您知道无论您的多维数据集发送到数据库的 MDX/XMLA 将被一致地插入,几乎不会带来令人讨厌的惊喜。

将其与 Pentaho 堆栈进行比较,后者通常会结束与 Postgresql 或 Mysql 的交互。我无法保证 Postgresql 在 OLAP 领域的表现如何,但我确实从经验中知道,Mysql - 尽管具有无可置疑的优势 - 在 OLAP 解决方案中通常出现的 SQL 类型存在“问题” (如果不使用GROUP BYor ,您将无法在多维数据集中走多远COUNT DISTINCT)。因此,您在许可证成本中节省的部分几乎肯定会用于解决 Pentaho 并不总是知道它正在与哪个数据库通信这一事实所引起的问题——可以这么说,抢劫彼得(至少部分)支付保罗。

于 2009-11-29T19:14:44.807 回答
1

不幸的是,需要更多信息。例如:

  • 您是否需要与知名应用程序(Oracle Financials、Remedy 等)交换数据?如果是这样,您可以使用已内置支持该接口的 ETL 解决方案节省大量时间和金钱。
  • 您需要与哪些数据库产品(和版本)和文件类型进行交流?
  • 你需要支持查询网络服务吗?
  • 您需要近乎实时的数据流吗?
  • 您是否需要规则级别的审计和计数来计算每一行
  • 你需要增量处理吗?
  • 你需要在什么样的机器上运行它?linux?视窗?大型机?
  • 这个工具必须遵守什么样的版本控制、测试和构建过程?
  • 您需要什么样的性能和可扩展性?
  • 您是否介意数据库最终会推动转换?
  • 你需要这个在用户空间中运行吗?
  • 您是否需要在与其他网络断开连接的各种网络上运行它的一部分?(对于提取过程并不少见)
  • 您需要支持多少个接口和什么复杂度?

您可能会花费大量时间来部署和学习 ETL 工具——结果却发现它确实不能很好地满足您的需求。你最好先花几个小时弄清楚。

于 2009-12-02T05:35:16.077 回答
0

有很多选择。如果您想要免费工具,请查看 BIRT、Talend 和 Pentaho。如果您想要更稳健,请查看 Tableau 和 BIRT Analytics。

于 2013-02-19T21:59:21.237 回答
0

我以前使用过Talend并取得了一些成功。您可以通过在图形设计器中将操作链接在一起来创建翻译。肯定有一些WTF,很难处理多行记录,但其他方面效果很好。

Talend 还生成 Java,您可以远程访问 ETL 流程。该工具也是免费的,尽管它们提供企业培训和支持。

于 2009-11-27T15:21:25.960 回答