如果我想实时分析数十亿行日志以找出前 k 个用户模式,并且由于数据量巨大,有多个服务器满足用户请求并在各自的机器上记录数据,如何我应该去做吗?
我不是在寻找一个相同的开源实现来帮助我完成上述任务,而是一种从每台机器聚合日志的方法(如果算法中可以进行本地聚合,则可能不一定需要)并做对全集进行分析,根据一定的约束条件得到前几条日志。
我应该使用什么数据结构,应该采用什么方法?请注意,这些日志会不断生成,我们希望实时更新我们的结果。
如果我想实时分析数十亿行日志以找出前 k 个用户模式,并且由于数据量巨大,有多个服务器满足用户请求并在各自的机器上记录数据,如何我应该去做吗?
我不是在寻找一个相同的开源实现来帮助我完成上述任务,而是一种从每台机器聚合日志的方法(如果算法中可以进行本地聚合,则可能不一定需要)并做对全集进行分析,根据一定的约束条件得到前几条日志。
我应该使用什么数据结构,应该采用什么方法?请注意,这些日志会不断生成,我们希望实时更新我们的结果。
我就是这样做的https://stackoverflow.com/a/6484592/760401
我必须说我从来没有为如此大量的数据做过它,但是 :),Jabber/XMPP 和 CouchDB 都以他们的扩展能力。