2

我正在尝试在以下列系列中存储一些时间序列数据:

create column family t_data with comparator=TimeUUIDType and default_validation_class=UTF8Type and key_validation_class=UTF8Type;

我以这种方式成功插入数据:

data={datetime.datetime(2013, 3, 4, 17, 8, 57, 919671):'VALUE'}
key='row_id'
col_fam.insert(key,data)

如您所见,使用 datetime 对象作为列名 pycassa 可以正确转换为 timeUUID 对象。

[default@keyspace] get t_data[row_id];

=> (column=f36ad7be-84ed-11e2-af42-ef3ff4aa7c40, value=VALUE, timestamp=1362423749228331)

有时,应用程序需要更新一些数据。问题是当我尝试更新该列时,传递相同的 datetime 对象,pycassa 创建一个不同的 UUID 对象(时间部分是相同的),所以它不是更新列,而是创建另一个。

[default@keyspace] get t_data[row_id];

=> (column=f36ad7be-84ed-11e2-af42-ef3ff4aa7c40, value=VALUE, timestamp=1362423749228331)

=> (column=**f36ad7be**-84ed-11e2-b2fa-a6d3e28fea13, value=VALUE, timestamp=1362424025433209)

问题是,如何使用传递 datetime 对象的 pycassa 更新基于 TimeUUID 的列?或者,如果这不是正确的方法,推荐的方法是什么?

4

1 回答 1

2

除非你做一个读-修改-写,否则你不能。UUID 本质上是独一无二的。它们的存在是为了解决如何获得按时间顺序排序的唯一 ID,同时避免恰好同时发生的事情发生冲突的问题。

因此,要更新该列,您需要先读取它,这样您就可以找到它的列键,更改它的值并再次将其写回。

这不是一个特别优雅的解决方案。你真的应该避免在 Cassandra 中读取-修改-写入。也许 TimeUUID 不是您的列键的正确类型?或者,也许还有另一种方法可以设计您的应用程序,以避免不得不返回并进行更改。

在不知道你的查询模式是什么样子的情况下,我不能确切地说你应该做什么,但这里有一些希望是相关的建议:

不要更新值,只需写入新值。如果某件事在时间 T 为真,那么在时间 T 中始终为真,即使它在时间 T + 1 时发生变化。当事情发生变化时,您在变化的时间写入一个新值,并让旧值保持不变。当您阅读时间线时,您可以通过选择最近的值来解决这些冲突 - 由于这些值将按时间顺序排序,因此最近的值将始终是最后一个值。这与 Cassandra 在内部做事的方式非常相似,并且是一种非常强大的模式。

不要担心这会占用更多的磁盘空间,或者在读取时间序列时需要一些额外的 CPU,与您必须实现的读取-修改-写入复杂性相比,它很可能很小。

可能还有其他方法可以解决您的问题,如果您提供更多详细信息,也许我们可以提出更适合的方法。

于 2013-03-05T09:14:02.113 回答