我希望从多个节点日志文件(在我的情况下是 apache 访问和错误日志)中导出,并将该数据批量聚合,作为计划的作业。我见过多种处理流数据的解决方案(即 think scribe)。我想要一个工具,让我可以灵活地定义目的地。这个要求来自于我想使用 HDFS 作为目标。
我一直无法找到批量支持此功能的工具。在重新创建轮子之前,我想询问 StackOverflow 社区的意见。
如果python中已经存在解决方案,那就更好了。
我希望从多个节点日志文件(在我的情况下是 apache 访问和错误日志)中导出,并将该数据批量聚合,作为计划的作业。我见过多种处理流数据的解决方案(即 think scribe)。我想要一个工具,让我可以灵活地定义目的地。这个要求来自于我想使用 HDFS 作为目标。
我一直无法找到批量支持此功能的工具。在重新创建轮子之前,我想询问 StackOverflow 社区的意见。
如果python中已经存在解决方案,那就更好了。
我们使用http://mergelog.sourceforge.net/ 来合并我们所有的 apache 日志。
Scribe 可以满足您的要求,有一个 scribe 版本(链接)可以聚合来自多个来源的日志,并在达到给定阈值后将所有内容存储在 HDFS 中。我已经使用它并且效果很好。编译非常复杂,所以如果您有任何问题,请提出问题。
看看 Zomhg,它是一个使用 Hbase 和 Hdfs 的日志文件聚合/报告系统:http: //github.com/zohmg/zohmg
PiCloud可能会有所帮助。
PiCloud 平台让您可以自由地开发算法和软件,而无需将时间投入到与配置、管理和维护服务器相关的所有工作中。