我知道 cassandra 合并了 sstables、行键、删除墓碑等等。
但我真的很想知道它是如何执行压缩的?
由于 sstables 是不可变的,它是否会将所有相关数据复制到新文件中?并且在写入这个新文件时,它会丢弃墓碑标记的数据。
我知道压缩是做什么的,但想知道它是如何实现的(T)
我知道 cassandra 合并了 sstables、行键、删除墓碑等等。
但我真的很想知道它是如何执行压缩的?
由于 sstables 是不可变的,它是否会将所有相关数据复制到新文件中?并且在写入这个新文件时,它会丢弃墓碑标记的数据。
我知道压缩是做什么的,但想知道它是如何实现的(T)
如果您关注其中的所有帖子和评论,我希望此主题对您有所帮助
http://comments.gmane.org/gmane.comp.db.cassandra.user/10577
AFAIK
Whenever memtable is flushed from memory to disk they are just appended[Not updated] to new SSTable created, sorted via rowkey.
SSTable merge[updation] will take place only during compaction.
Till then read path will read from all the SSTable having that key you look up and the result from them is merged to reply back,
Two types : Minor and Major
Minor compaction is triggered automatically whenever a new sstable is being created.
May remove all tombstones
Compacts sstables of equal size in to one [initially memtable flush size] when minor compaction threshold is reached [4 by default].
Major Compaction is manually triggered using nodetool
Can be applied over a column family over a time
Compacts all the sstables of a CF in to 1
Compacts the SSTables and marks delete over unneeded SSTables. GC takes care of freeing up that space
问候, 泰米尔语
有两种运行压缩的方法:
A- 轻微压实。自动运行。B-主要压实。手动运行。
在这两种情况下都需要 x 个文件(每个 CF)并处理它们。在此过程中,将 ttl 过期的行标记为 tombstones,并删除现有的 tombstones。这样会生成一个新文件。在此压缩中生成的 tombstones 将在下一次压缩中被删除(如果花费了宽限期,gc_grace)。
A 和 B 之间的区别在于所取文件的数量和最终文件的数量。A 需要几个相似的文件(相似的大小)并生成一个新文件。B 获取所有文件并仅生成一个大文件。