logging - 实时聚合和分析来自多个服务器的日志

Question

如果我想实时分析数十亿行日志以找出前 k 个用户模式，并且由于数据量巨大，有多个服务器满足用户请求并在各自的机器上记录数据，如何我应该去做吗？

我不是在寻找一个相同的开源实现来帮助我完成上述任务，而是一种从每台机器聚合日志的方法（如果算法中可以进行本地聚合，则可能不一定需要）并做对全集进行分析，根据一定的约束条件得到前几条日志。

我应该使用什么数据结构，应该采用什么方法？请注意，这些日志会不断生成，我们希望实时更新我们的结果。

score 0 · Accepted Answer

我应该使用什么数据结构，应该采用什么方法？

MapReduce 传统上用于此类任务，请尝试Hadoop。分布式grep是一个学校示例，许多其他人正在使用它进行日志管理。

score 0 · Accepted Answer

我就是这样做的https://stackoverflow.com/a/6484592/760401
我必须说我从来没有为如此大量的数据做过它，但是 :)，Jabber/XMPP 和 CouchDB 都以他们的扩展能力。

2 回答 2