我正在使用具有标准列类型和复合类型键的 cassandra 列族。cassandra 集群有 3 个节点,复制因子为 3。数据从列族中插入、更新和删除。
例如,假设列族的当前状态是
Row X
column=1:a, value=v1, timestamp=1000
column=1:b, value=v2, timestamp=1010
column=2:a, value=v3, timestamp=1020
Row X
许多更新发生在可以更新 列的一段时间内,有时会插入或删除新行。
我观察到的问题是假设带有键 2:a 的列更新timestamp=1030
为 v4 的值。当我使用 cassandra-cli 观察数据时,即使经过几个小时,它也不会显示密钥 2:a。后来,键 1:a、1:b 被删除,最终 - 几个小时后,键 2:a 出现,但时间戳早于 1030 - 比如 990。
我读到如果节点之间存在时钟差异,那么拥有最新时间戳的写入者会覆盖其他节点。如果它们相同,则按字典顺序较高的值胜过较低的值。但是,在我的例子中,只有一个写入器进程更新列族,写入器只更新键 2:a,然后删除 1:a 和 1:b。因此,同一个键没有多个写入者。编写器是多线程的,所以线程接触不同的键,但不是同一个键。
所以我的问题是:
- 在什么情况下我们可以有不显示的键,即使在写入发生很长时间后?
- 什么会导致密钥的时间戳变得混乱?在上面的例子中,2:a 的时间戳应该是 1030,但最终看到时却显示为 990。
有人可以分享一些关于可能出了什么问题的建议,或者如何解决问题,或者任何有用的文章来分析问题吗?