mysql - 用于大规模夜间/每小时 Hive/MySQL 数据处理的 Spring-Batch

Question

我正在考虑替换一堆 Python ETL 脚本，这些脚本执行每晚/每小时的数据摘要和对大量数据的统计收集。

我想要实现的是

当前脚本执行以下操作：

从多台机器收集文本日志，并将它们推送到Hadoop DFS。我们将来可能会在这一步中使用 Flume（参见http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/）。
对数据执行Hive汇总查询，并插入（覆盖）到新的 Hive 表/分区。
将新的汇总数据提取到文件中，然后加载（合并）到 MySql 表中。这是稍后在线报告所需的数据。
对新添加的 MySql 数据（来自 MySql 表）执行附加连接，并更新数据。

我的想法是用 spring-batch 替换脚本。我也研究了Scriptella，但我认为这对于这种情况来说太“简单”了。

因为我在 Spring-Batch 上看到了一些不好的感觉（主要是旧帖子），所以我希望在这里得到一些输入。我也没有看到太多关于 spring-batch 和 Hive 集成的东西，这很麻烦。

score 3 · Accepted Answer

如果您想留在 Hadoop 生态系统中，我强烈建议您查看Oozie以自动化您的工作流程。我们 (Cloudera) 提供了Oozie 的打包版本，您可以使用它开始使用。有关更多详细信息，请参阅我们最近的博客文章。

score 1 · Accepted Answer

1

为什么不使用JasperETL或Talend？似乎是适合这项工作的工具。

于 2010-09-27T16:17:30.300 回答

score 1 · Accepted Answer

I've used Cascading quite a bit and found it be quite impressive:

It is a M/R abstraction layer, and runs on Hadoop.

3 回答 3