0

我正在使用 DataStax 网站上提供的批量加载示例生成 Cassandra SSTables。http://www.datastax.com/dev/blog/bulk-loading

我的问题是 SSTable 文件理想地消耗了多少磁盘空间?就我而言,我的数据 CSV 文件为 40 GB,SStables 为该特定文件消耗的总磁盘空间约为250GB。创建这些表时我缺少什么吗?是否有任何可用于生成 sstables 的压缩选项?

我使用 sstableloader 加载 sstables 的第二步工作得非常好,并且数据可用于在 CQL 中查询。

另外,我想知道除了我上面提到的bulkload方法之外,是否还有其他技术可以将大数据导入cassandra。

4

1 回答 1

0

首先检查是否启用了压缩。如何检查?

如果 sstable 被压缩,它将有一个CompressionInfo.db 组件(即组成 sstable 的文件之一,以 --CompressionInfo.db 结尾)。如果没有这样的文件,那么它就不会被压缩。

有关更多压缩相关信息,请查看此

转到最后一个问题,还有其他批量加载方法的替代方法,使用COPY命令。查看文档

于 2013-05-15T18:40:44.897 回答