0

如果我想实时分析数十亿行日志以找出前 k 个用户模式,并且由于数据量巨大,有多个服务器满足用户请求并在各自的机器上记录数据,如何我应该去做吗?

我不是在寻找一个相同的开源实现来帮助我完成上述任务,而是一种从每台机器聚合日志的方法(如果算法中可以进行本地聚合,则可能不一定需要)并做对全集进行分析,根据一定的约束条件得到前几条日志。

我应该使用什么数据结构,应该采用什么方法?请注意,这些日志会不断生成,我们希望实时更新我们的结果。

4

2 回答 2

0

我应该使用什么数据结构,应该采用什么方法?

MapReduce 传统上用于此类任务,请尝试Hadoop分布式grep是一个学校示例,许多其他人正在使用它进行日志管理。

于 2012-10-25T20:42:56.337 回答
0

我就是这样做的https://stackoverflow.com/a/6484592/760401
我必须说我从来没有为如此大量的数据做过它,但是 :),Jabber/XMPP 和 CouchDB 都以他们的扩展能力。

于 2013-09-29T19:29:22.933 回答