0

我正在使用具有标准列类型和复合类型键的 cassandra 列族。cassandra 集群有 3 个节点,复制因子为 3。数据从列族中插入、更新和删除。

例如,假设列族的当前状态是

Row X  
column=1:a, value=v1, timestamp=1000  
column=1:b, value=v2, timestamp=1010  
column=2:a, value=v3, timestamp=1020  

Row X许多更新发生在可以更新 列的一段时间内,有时会插入或删除新行。

我观察到的问题是假设带有键 2:a 的列更新timestamp=1030为 v4 的值。当我使用 cassandra-cli 观察数据时,即使经过几个小时,它也不会显示密钥 2:a。后来,键 1:a、1:b 被删除,最终 - 几个小时后,键 2:a 出现,但时间戳早于 1030 - 比如 990。

我读到如果节点之间存在时钟差异,那么拥有最新时间戳的写入者会覆盖其他节点。如果它们相同,则按字典顺序较高的值胜过较低的值。但是,在我的例子中,只有一个写入器进程更新列族,写入器只更新键 2:a,然后删除 1:a 和 1:b。因此,同一个键没有多个写入者。编写器是多线程的,所以线程接触不同的键,但不是同一个键。

所以我的问题是:

  1. 在什么情况下我们可以有不显示的键,即使在写入发生很长时间后?
  2. 什么会导致密钥的时间戳变得混乱?在上面的例子中,2:a 的时间戳应该是 1030,但最终看到时却显示为 990。

有人可以分享一些关于可能出了什么问题的建议,或者如何解决问题,或者任何有用的文章来分析问题吗?

4

1 回答 1

0

Cassandra 不会立即删除数据。列用墓碑标记,稍后将通过压缩删除,这解释了您的延迟几个小时。具有最高时间戳的环中的数据始终被选为正确的值,无论它是否被标记为墓碑。虽然我不能确定,但​​节点时间不同步很可能是您的情况。我强烈建议您在所有机器上安装 ntp,等到所有时间同步后再尝试测试。

于 2013-05-15T23:03:15.403 回答