我在分布式环境中每天存储 50Gb 的日志时遇到问题。我查看了 Hadoop HDFS,但因为它在 Windows 基础架构上运行存在问题,缺乏多语言文件系统 API,它不太适合我。另一方面,Cassandra 很容易部署在任何平台上。我面临的唯一大问题是磁盘空间使用。以下是数字:
- 原始日志大小为 224Mb
- Cassandra 数据文件为 557Mb
- Cassandra 索引文件为 109Mb
因此,从日志文件存储日志行时,我的开销几乎是 2 倍。
是否可以以某种方式调整 Cassandra,使其在非常简单的场景中不会占用太多磁盘空间?