背景(抱歉,太长了):
我的任务是维护一个 ETL,它收集各种在线广告数据,每天大约 20-30 MB,并将其附加到 MySQL 中的表中。外部承包商用 Pentaho Spoon(厨房、水壶?)建造了 ETL。ETL 由大约 250 个作业和转换 (.ktr,.kjb) 组成,每个都有大约 5 到 25 个步骤。在这个大过程中出现问题是很常见的。我发现编写 R 脚本来进行转换和加载效率更高。事实上,我认为除了使用 RMySQL 调用(即 plyr!)之外,ETL 可以减少到 1000 行以下的代码。也许 Python 将用于从网络中提取数据。
我对 R 的使用导致了一些阻力。设计 ETL 的计算机程序员不懂 R,所以如果我离开,就不能叫,而且很多时间都投入在 Spoon ETL 上。此外,与 R 脚本相比,外行可以更轻松地在 Spoon 中直观地遵循这些步骤。就我而言,我认为我们被 ETL 所困。但是,由于我没有计算机科学背景,因此我对此事没有太大的发言权。
如果您对以下内容有任何见解,请发表评论。请知道我已经研究了几个月并阅读了很多意见,但没有像 SO 通常提供的那样简洁或可靠:
公司的一些人称 R 的可扩展性不高。我认为相反的主要原因是日志记录功能。Spoon 的纯日志输出有限,而所有 R 脚本都可以放入每日日志中。修复和避免 .ktrs 中的错误非常乏味,但通过设置标志和/或搜索 R 日志很容易。对此有什么想法吗?
这就引出了一个大问题。像 Pentaho 这样的 ETL 有什么意义?这篇文章我需要 ETL 吗?,让我相信,如果你使用 R 或其他所谓的 OOL,没有理由拥有像 Pentaho 这样的工具。如果是这样,有人可以确认吗?我在这里真的需要第二个意见。如果是这样,谁使用像 Pentaho 这样的工具?只是没有编程背景的人,还是其他人?我确实看到了很多关于 SO 的 Pentaho 问题。
确实有更多的人使用 R 和 Pentaho,对吧?这个http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html让它看起来如此。老实说,我很惊讶 Pentaho 排在第 5 位,这让我倍加怀疑谁在使用 Pentaho,以及我对它在我的工作环境中的使用的怀疑是否是错误的。
感谢您的任何回复。我并不是要对 Spoon 或 Spoon 用户有任何屈尊俯就;我真的很困惑,需要外界的意见。