7

我无法弄清楚如何跨多个表维护属性更新以确保数据一致性。

例如,假设我在演员和粉丝之间有多对多的关系。一个粉丝可以支持很多演员,一个演员有很多粉丝。我制作了几张表来支持我的查询

CREATE TABLE fans (
    fan_id uuid,
    fan_attr_1 int,
    fan_attr_2 int
    PRIMARY KEY ((fan_id))
)

CREATE TABLE actors (
    actor_id uuid,
    actor_attr_1 int,
    actor_attr_2 int
    PRIMARY KEY ((actor_id))
)

CREATE TABLE actors_by_fan (
    fan_id uuid,
    actor_id uuid,
    actor_attr_1 int,
    actor_attr_2 int
    PRIMARY KEY (fan_id, actor_id)
)

CREATE TABLE fans_by_actor (
    actor_id uuid,
    fan_id uuid,
    fan_attr_1 int,
    fan_attr_2 int
    PRIMARY KEY (actor_id, fan_id)
)

假设我是粉丝,并且在我的设置页面上,我想将我的值更改fan_attr_1为不同的值。

fans桌子上我可以很好地更新我的属性,因为应用程序知道我的 fan_id 并且可以键入它。

但是,如果不先查询与风扇相关的 actor_ids,我就无法更改我fan_attr_1的设置。fans_by_actor

fans每当您要更新或的任何属性时,都会出现此问题actors

我尝试在网上寻找遇到类似问题的人,但我找不到他们。例如,在 Datastax 的数据建模课程中,他们使用具有多对多关系的演员和视频的示例,其中他们有表格actors_by_videovideos_by_actor. 与我咨询过的其他在线资源一样,该课程讨论了查询后的建模表,但没有深入研究如何维护数据完整性。在actors_by_video表格中,如果我想改变一个演员的属性会发生什么?不必遍历每一行actors_by_video来查找包含参与者的分区并更新属性吗?这听起来非常低效。另一种选择是事先查找视频 ID,但我在其他地方读到,在写入之前读取是 Cassandra 中的反模式。

从数据建模的角度或从 CQL 的角度来看,解决这个问题的最佳方法是什么?

编辑: - 固定句子存根 - 添加上下文和先前的研究

4

3 回答 3

2

数据建模

Cassandra 不是关系型数据库,在 DataModeling 上需要遵循一些基本规则,在高层次上,我们的数据模型需要遵循以下目标。

1)在集群周围均匀分布数据

2)最小化读取的分区数

此外,我们应该选择一个大表,而不是把它分成多个表并在表之间添加关系。在这种方法中,会出现重复记录。复制记录并不是一项成本更高的操作,因为它只需要更多的磁盘空间,而不是 CPU、内存、磁盘 IOP 或网络。

请注意,列键名和值有大小限制。最大列键(和行键)大小为 64KB。最大列值大小为 2 GB。但是因为没有流式传输,并且在请求时整个值都在堆内存中获取,所以将大小限制为只有几 MB。

更多信息:

http://www.datastax.com/dev/blog/basic-rules-of-cassandra-data-modeling

http://www.ebaytechblog.com/2012/07/16/cassandra-data-modeling-best-practices-part-1/

http://www.ebaytechblog.com/2012/08/14/cassandra-data-modeling-best-practices-part-2/

https://docs.datastax.com/en/cql/3.1/cql/cql_reference/refLimits.html

CQL

可以使用批处理物化视图来保持表之间的一致性。从 3.0 版开始提供物化视图

请参见

如何确保 Cassandra 在不同表上的数据一致性?

我的偏好是更改数据模型并针对我们的查询进行相应的设计,如果可能的话,将其作为一个大表。

希望能帮助到你!

于 2016-12-31T06:56:21.990 回答
1

物化视图可能是最好的选择:

CREATE MATERIALIZED VIEW actors_by_fan 
AS SELECT fan_id, actor_id, actor_attr_1, actor_attr_2
FROM fans 
PRIMARY KEY (fan_id, actor_id);

CREATE MATERIALIZED VIEW fans_by_actor
AS SELECT actor_id, fan_id, fan_attr_1, fan_attr_2
FROM actors 
PRIMARY KEY (actor_id, fan_id);

在 3.0 之前的版本中,创建二级索引并评估其性能是否可以接受。后来升级到 3.x 后,只删除二级索引,创建物化视图。

于 2016-12-31T17:51:10.430 回答
0

解决此类问题的方法是手动更新所有更改的记录。

由于您不能使用物化视图,为了更新fan_attr_1您的数据,您需要:

  1. fan通过发出更新表UPDATE fan ... WHERE fan_id = xxx
  2. 通过发出选择所有actor_ids 。actors_by_fanSELECT actor_id ... WHERE fan_id = xxx
  3. fans_by_actor通过发出更新表中的所有相应行UPDATE fans_by_actor ... WHERE actor_id IN (...),或者循环遍历actor_ids 并异步运行每个更新。

只要您actor_id在步骤 2 中有少量,比如少于 20 个,您就可以将所有查询分组并通过在单个BATCH. 否则,您需要以其他方式保证表之间的一致性。

这可能和听起来一样低效,但我认为没有其他更智能的解决方案。顺便说一句,您正在发出一次读取(步骤 2)和多次写入(步骤 1 和步骤 3)。这不会是世界末日,特别是如果您不经常更改属性例如每 10 毫秒)。

于 2017-01-04T10:12:31.497 回答