作为我工作的一部分,我们每年获得大约 25TB 的日志文件,目前它保存在基于 NFS 的文件系统上。有些以 zipped/tar.gz 格式存档,而另一些则以纯文本格式保存。
我正在寻找使用基于 NFS 的系统的替代方案。我查看了 MongoDB、CouchDB。它们是面向文档的数据库这一事实似乎使其成为合适的选择。但是,日志文件内容需要更改为 JSON 才能存储到数据库中。我不愿意做的事情。我需要按原样保留日志文件内容。
至于使用,我们打算放置一个小的 REST API,并允许人们获取文件列表、最新文件以及获取文件的能力。
提议的解决方案/想法需要是某种形式的分布式数据库或应用程序级别的文件系统,其中可以存储日志文件并可以通过添加更多机器来有效地水平扩展。
安库尔