目前,我们存储了一个文件管理器的大量日志(30G/天 x3 机器 = av. 100G)。日志被压缩。
搜索该日志的实际工具是搜索相应的日志(根据时间范围),将它们复制到本地,解压缩它们,然后在 xml 中搜索信息并显示。
我们正在研究制作类似 spunk 的工具来搜索该日志的可能性(它是消息总线的输出:发送到其他系统的 xml 消息)。
依靠类似mongo的数据库而不是直接查询压缩的日志文件有什么好处?我们还可以索引数据库中的一些数据,并让程序搜索目标 zip 文件……是什么带来了 mongodb……或 hadoop 更多?