我的公司在 MS BI Stack(SQL Server Reporting Services、-Analysis Services 和-Integration Services)上投入了大量资金,但我想看看看起来最受关注的开源替代 Pentaho 是什么样的。
我已经安装了一个版本,并且很轻松地启动并运行它。所以这很好。但是我还没有真正开始将它用于实际工作以彻底了解该软件包的时间。
你们中是否有人对 Pentaho 与 MS BI 的优缺点有任何见解,或任何此类比较的链接?
非常感激!
我的公司在 MS BI Stack(SQL Server Reporting Services、-Analysis Services 和-Integration Services)上投入了大量资金,但我想看看看起来最受关注的开源替代 Pentaho 是什么样的。
我已经安装了一个版本,并且很轻松地启动并运行它。所以这很好。但是我还没有真正开始将它用于实际工作以彻底了解该软件包的时间。
你们中是否有人对 Pentaho 与 MS BI 的优缺点有任何见解,或任何此类比较的链接?
非常感激!
在离开 Business Objects 的路上,我查看了多个 Bi 堆栈。我的很多评论都是偏好。两个工具集都很棒。有些事情是我更喜欢巧克力软糖布朗尼冰淇淋而不是纯巧克力。
Pentaho 有一些非常聪明的人与他们合作,但微软一直走在一条资金充足且计划良好的道路上。请记住,MS 仍然是数据库市场的弱者。甲骨文是这里的王者。为了具有竞争力,当您购买数据库时,MS 一直在赠送很多好东西,并且被迫多次改造他们的平台。我知道这与数据库无关,但数据库之战已经导致 MS 放弃了很多,以便为他们的堆栈增加价值。
1.) 平台
SQL 服务器不在 Unix 或 Linux 上运行,因此它们自动被排除在这个市场之外。Windows 现在的价格与某些版本或 Unix 差不多。Windows 非常便宜,而且现在运行良好。它给我带来的麻烦与 Linux 一样多。
2.) OLAP
分析服务于 2005 年(目前是 2008 年)在 2000 年版本基础上进行了改造。这是一个比 2000 更强大的数量级。pentaho(蒙德里安)一旦变大就不会那么快了。它也有一些特点。它非常好,但工具的方式较少。两者都支持 Excel 作为必不可少的平台。MS版本更强大。
3.) ETL
MS - DTS 已被 SSIS 取代。再一次,速度、力量和能力的数量级增加。它控制任何和所有数据移动或程序控制。如果它不能这样做,你可以在 Powershell 中编写一个脚本。与 2008 版中的 Informatica 相当。Pentaho - 比以前好多了。没有我想的那么快,但我可以做我想做的所有事情。
4.) 仪表板
Pentaho 对此进行了改进。开发起来有点不舒服和不友好,但对于 MS 来说确实没有真正的等价物。
5.) 报告
MS 报告确实很强大,但也不是那么难用。我现在喜欢它,但一开始讨厌它,直到我对它有了更好的了解。我一直在使用水晶报表,而 MS 报表生成器要强大得多。在 MS 中做困难的事情很容易,但做简单的事情就更难了。Pentaho 有点笨拙。我根本不喜欢它,但你可能会。我发现它过于复杂。我希望它更像水晶报表生成器或 MS 报表生成器,但它更像碧玉。我觉得很难。这可能是一种偏好。
6.) ad hoc
MS - 这对我来说是真正的赢家。我与我的用户一起测试了它,他们立即爱上了 MS 用户报告生成器。不同之处在于它不仅易于使用,而且富有成效。Pentaho - 很好但很老派。它使用更典型的基于向导的模型并具有强大的工具,但我讨厌它。它是一个很好的工具,但我们已经从这种风格继续前进,没有人想回去。我对 logiXML 有同样的问题。界面运行良好,但与我们使用 12 年的界面相比并没有太大变化。
http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of+Interactive+Reporting
有一些经验丰富的人可以让 Pentaho 真正运行良好,我只是发现 MS 套件更有效率。
警告——有许多网站列出了 SSIS 的许多缺陷、错误和烦恼。不知道为什么 SSIS 在这篇文章中名列前茅——但在你把你的项目押在上面之前,看看人们在博客圈里怎么说。根据我的经验,它以 20:1 的比例抱怨 SSIS 的使用有多糟糕——我也可以同意,目前正在寻找任何替代方案。
这里有很好的信息吗?我还没有尝试过 Pentaho,但并打算检查一下。我是一位经验丰富的 MS BI 顾问,自 1998 年以来一直在使用它。SSIS 非常快速且非常强大,但批评是当场的。我发现 SSIS 存在以下问题:
(1) 很难调试,你会得到一些神秘的错误,这些错误可能不会给你任何关于问题所在和问题的提示。
(2) 根据之前的评论,这是有史以来最糟糕的开发环境!我不知道他们在想什么。
(a) 创建一个包含 100 列或更多列的表,并在其上放置一个合并连接。现在返回并尝试对合并连接进行更新(例如拉出一个新列)。在合并连接上单击“确定”以保存更改后,即使在最快的机器上也可能需要几分钟。我有一个庞大的数据流,其中包含许多宽记录和许多合并连接。向数据流中添加一列需要半天以上的时间。我更新了一个合并连接,然后必须去做其他事情,并在 5-10 分钟后检查它是否完成。微软对此的回应是将你的包分解成多个包,将数据放在一个表或它们之间的二进制文件中。好吧,如果您要在所有步骤之间进行磁盘操作,那么您可能会在 SQL 中完成所有事情!
(b) 设计师有时会彻底崩溃,丢失自上次保存以来的所有工作(因此,我现在在睡梦中按 ctrl-S)
(c) 我必须想出一个技巧并在 Excel 中生成 SSIS 包 XML 以获取广泛的记录。我有一个医疗保健客户,其中 600 多条列记录很常见。如果您尝试在 SSIS 中定义具有 600 列的文件格式,您必须一次输入每一列!!!即使是 MS 访问权限,您也可以将电子表格中的布局剪切并粘贴到文件布局中,但 SSIS 不允许。所以我必须从布局中生成 XML 并将 XML 代码粘贴到包中的正确位置。这样做的方式很丑陋,但它节省了一整天的工作时间和许多错误。
(d) 与 (c) 类似,如果您需要修剪所有列并且您有 600 多个列,您猜怎么着?在派生列组件中,您必须输入 trim(column1) 600 多次!我现在在 SQL 查询中执行所有类似这样的简单转换来获取数据,因为可以很容易地从 Excel 工作表生成数据。
(e) 有很多古怪的东西,组件变得不可见,有时你打开包装,所有组件都完全重新排列,不连贯。
(f) FTP 功能,可能是 ETL 中最常见的功能之一,它很弱,只支持没有人使用的普通 FTP。现在每个人都使用 SFTP、FTPS、https 等……所以几乎每个实现都需要使用包必须调用的 3rd 方推荐行驱动的文件传输应用程序。
(g) 尝试 CYA,类似于 Windows Vista 中荒谬的安全性,Microsoft 使得将 SSIS 包从一种环境实际推广到另一种环境变得极其困难。它默认为“使用用户密钥加密敏感信息”安全这一愚蠢的事情,这意味着它必须在您将其移动到的环境中与您开发它的环境相同的帐户下运行,这种情况很少见。有更好的配置方法,但它总是试图恢复到这种完全无用的安全保护。
(h) 最后,这些问题中的大多数现在都在第 3 版中,这清楚地表明 Microsoft 没有计划修复它们。
(i) 调试不像其他语言那么容易。
SSIS 仍然有很多好处,但并非没有一些严重的痛苦。
多年前我开始使用 MS Reporting Services,并且非常喜欢它。我没有尝试过 Penaho 的报告解决方案,所以我无法对此发表评论。我也没有尝试过 Analysis Services 或 Pentaho 的替代方案。
最近我需要一个 ETL 解决方案,并且熟悉 MSSQL 和 MSRS,很明显我会审查并可能选择 MS 集成服务。但对我来说,MSI 很糟糕。主要是因为它不直观。在花了几天时间尝试学习该工具后,我决定寻找替代方案并遇到了 Pentaho Data Integration,以前称为 Kettle。我在几分钟内启动并运行了它,并立即创建了我的第一个转换。它只是工作。
诚然,我的需求相当简单,但性能非常好,社区似乎很有帮助。
我使用过 SSIS 和 Pentaho Kettle,我强烈建议您将 Pentaho Kettle 用于您的 ETL 工具,而不是 SSIS。
我的理由:-SSIS 的流程是任务到任务。Kettle 让您考虑流经系统的数据行。Kettle 的方法对我来说似乎更直观。-SSIS 的文档记录很差。有时候是这样的。但似乎有很多角落里的点击和变量设置。非常复杂。Pentaho 有一个非常有用的社区论坛。-我相信 Pentaho 可以与多种类型的数据库集成,包括 SQL Server。您还可以使用很好的 JDBC。此外,我用它在一侧的 SQL Server 和 Oracle 和另一侧的 Vertica 之间切换。它在 Vertica 上有一个可用的散装装载机。这很不错。-相对而言,我发现让 SSIS 包在服务器上运行非常非常困难。这不值得我花时间。- 我发现 Pentaho 很容易将警告或错误消息发送给一个人或一组人。-Pentaho 允许在 JavaScript 中完成需要一些逻辑的任务。使用我们大多数人都遇到过的语言简单易行。
我无法就 MS BI Stack 提供任何意见,但在最近的Barcamp Orlando上,来自 Pentaho 的人们在那里谈论了他们的产品,这是一个非常令人印象深刻的演示。
事实上,它是一个开源项目,您可以扩展自己以及为真正优质的服务付费的包,这让您有很多选择。他们展示了他们为客户所做的一些有偿工作,他们绝对让观众赞叹不已。
我还有机会与一位为 Pentaho 从事数据仓库方面工作的开发人员聊了聊,他非常敏锐,对建议非常开放,回答任何问题都没有问题。
所以就一家公司而言,Pentaho 的工作以及他们所有开发人员的友好和平易近人都给我留下了深刻的印象。
几点要补充
工具问题需要根据更大的文化问题来解决——什么样的商店使用开源工具?根据我的经验,我发现尽管 Microsoft 商店似乎更加僵化,但当您在 Microsoft 商店中遇到连接字符串问题时,您可以获得帮助。在 Pentaho 和 Linux 商店中,它更多的是 DYI。
顺便说一句,注意 Pentaho 销售人员在做演示 - 他们展示的所有东西都比看起来更难工作!:)
如果您正在寻找一个强大的、低成本的替代大男孩 LogiXML 在 .NET 平台上提供仪表板和临时报告。自 2006 年底 Pentaho 刚开始时,我们就一直在使用它们,但我有一段时间没看它了。
我最近尝试了 pentaho 开源 BI。我发现它非常笨拙。它不是很直观,开发时间也更长。
它与 Oracle 或 ms BI 解决方案完全不同。也许企业版更好。