我正在使用 DataStax 网站上提供的批量加载示例生成 Cassandra SSTables。http://www.datastax.com/dev/blog/bulk-loading
我的问题是 SSTable 文件理想地消耗了多少磁盘空间?就我而言,我的数据 CSV 文件为 40 GB,SStables 为该特定文件消耗的总磁盘空间约为250GB。创建这些表时我缺少什么吗?是否有任何可用于生成 sstables 的压缩选项?
我使用 sstableloader 加载 sstables 的第二步工作得非常好,并且数据可用于在 CQL 中查询。
另外,我想知道除了我上面提到的bulkload方法之外,是否还有其他技术可以将大数据导入cassandra。