我一直在寻找 ETL 工具,在谷歌上发现了很多关于 Pentaho Kettle 的信息。
我还需要一个在 Star Schema 上运行的数据分析器,以便业务用户可以使用并生成任何类型的报告或矩阵。PentaHo Analyzer 再次看起来不错。
应用程序的其他部分将使用 java 开发,并且应用程序应该与数据库无关。
Pentaho 是否足够好,或者我应该检查其他工具。
我一直在寻找 ETL 工具,在谷歌上发现了很多关于 Pentaho Kettle 的信息。
我还需要一个在 Star Schema 上运行的数据分析器,以便业务用户可以使用并生成任何类型的报告或矩阵。PentaHo Analyzer 再次看起来不错。
应用程序的其他部分将使用 java 开发,并且应用程序应该与数据库无关。
Pentaho 是否足够好,或者我应该检查其他工具。
Pentaho 似乎相当稳固,提供整套 BI 工具,据报道,集成的改进正在进行中。但是......希望为其 BI 解决方案采用开源路线的公司也很可能最终使用开源数据库技术......从这个意义上说,“数据库不可知论”很容易成为一把双刃剑剑。例如,您可以在 Microsoft 的 Analysis Services 中开发一个多维数据集,因为您知道无论您的多维数据集发送到数据库的 MDX/XMLA 将被一致地插入,几乎不会带来令人讨厌的惊喜。
将其与 Pentaho 堆栈进行比较,后者通常会结束与 Postgresql 或 Mysql 的交互。我无法保证 Postgresql 在 OLAP 领域的表现如何,但我确实从经验中知道,Mysql - 尽管具有无可置疑的优势 - 在 OLAP 解决方案中通常出现的 SQL 类型存在“问题” (如果不使用GROUP BY
or ,您将无法在多维数据集中走多远COUNT DISTINCT
)。因此,您在许可证成本中节省的部分几乎肯定会用于解决 Pentaho 并不总是知道它正在与哪个数据库通信这一事实所引起的问题——可以这么说,抢劫彼得(至少部分)支付保罗。
不幸的是,需要更多信息。例如:
您可能会花费大量时间来部署和学习 ETL 工具——结果却发现它确实不能很好地满足您的需求。你最好先花几个小时弄清楚。
有很多选择。如果您想要免费工具,请查看 BIRT、Talend 和 Pentaho。如果您想要更稳健,请查看 Tableau 和 BIRT Analytics。
我以前使用过Talend并取得了一些成功。您可以通过在图形设计器中将操作链接在一起来创建翻译。肯定有一些WTF,很难处理多行记录,但其他方面效果很好。
Talend 还生成 Java,您可以远程访问 ETL 流程。该工具也是免费的,尽管它们提供企业培训和支持。