cassandra - 与 Bigtable 相比，Cassandras 数据模型中列族的概念差异？

Question

我目前正在尝试深入研究 Cassandra 的数据模型及其与 Bigtable 的关系，但最终对 Column Family 概念感到非常头疼。

主要是我的问题被问到并且已经回答了。但是，我对答案不满意:)

首先，我阅读了Bigtable 论文，尤其是关于它的数据模型，即数据是如何存储的。据我了解，Bigtable 中的每个表基本上都依赖于具有维度行、列和时间的多维稀疏映射。地图按行排序。列可以使用名称约定 family:qualifier 分组到列族。因此，单行可以包含多个列族（参见论文中的示例图）。

虽然说 Cassandra 依赖于 Bigtable 数据模型，但我多次读到 Cassandra 中的列族包含多行，并且在某种程度上可以与关系数据存储中的表相媲美。这不是与 Bigtable 的方法相反，其中一行可以包含多个列族吗？首先是列族或行:)？这些概念是否具有可比性？

score 25 · Accepted Answer

您链接到的答案是 6 年前的，从那以后 Cassandra 发生了很多变化。Cassandra 刚开始的时候，它的数据模型确实是基于 BigTable 的。一行数据可以包含任意数量的列，每列都有一个名称和一个值。一行可以有一千个不同的列，而不同的行可以有一千个其他列 - 行不必具有相同的列。这样的数据库被称为“无模式”，因为没有每行需要遵守的模式。

但是托托，我们不再在堪萨斯州了——卡桑德拉的模型从那时起就改变了焦点（尽管本质上没有改变），我将尝试解释如何以及为什么：

随着 Cassandra 的成熟，它的开发人员开始意识到无模式并不像他们曾经想象的那么好。模式对于确保应用程序的正确性很有价值。此外，通常不会因为一条记录中有 1000 个单独命名的字段而在一行中达到 1000 列。相反，更常见的情况是记录实际上包含 200 个条目，每个条目有 5 个字段。模式应该修复这些条目中的每一个都应该具有的这 5 个字段，并且定义这些单独条目中的每一个的内容称为“集群键”。所以大约在六年前的 Cassandra 0.8 时代，这些想法被作为“CQL”（Cassandra 查询语言）引入 Cassandra。

例如，在 CQL 中，声明一个列族（它被忠实地重命名为“表”）具有一个模式，其中包含一个已知的字段列表：

CREATE TABLE groups (
    groupname text,
    username text,
    email text,
    age int,
    PRIMARY KEY (groupname, username)
)

该模式表示表中的每个宽行（现在，在现代 Cassandra 中，这已重命名为“分区”），键为“组名”，可能是一个很长的用户列表，每个用户都有用户名、电子邮件和年龄字段。“PRIMARY KEY”说明符中的第一个名称是分区键（它确定宽行的键），第二个称为集群键（它确定共同构成宽行的小行的键） .

尽管有新的 CQL 换装，Cassandra 继续使用旧的 BigTable-wide-row-without-schema 实现来实现这些新概念。例如，假设我们的数据有一个组“mygroup”，其中有两个人，(john, john@somewhere.com, 27) 和 (joe, joe@somewhere.com, 38)。Cassandra 将以下四个列名 -> 值添加到宽行：

john:email -> john@somewhere.com
john:age -> 27
joe:email -> joe@somewhere.com
joe:age -> 27

请注意我们如何最终得到一个有 4 列的宽行 - 每行 2 个非关键字段（电子邮件和年龄），乘以分区中的行数 (2)。聚类键字段“用户名”不再作为值出现在任何地方，而是作为列名称的一部分！所以如果我们有两个用户名值“john”和“joe”，我们有一些以“john”为前缀的列和一些以“joe”为前缀的列，当我们读取列“joe:email”时，我们知道这是具有 username=joe 的行的电子邮件字段。

Cassandra 仍然具有这种内部二元性——将面向用户的 CQL 行和集群键转换为旧式的宽行。直到最近，Cassandra 的称为“SSTables”的磁盘格式仍然是无模式的，并且使用如上所示的复合名称作为列名。我在 Scylla 的网站https://github.com/scylladb/scylla/wiki/SSTables-Data-File上写了 SSTable 格式的详细说明（Scylla 是我贡献的 Cassandra 的更有效的 C++ 重新实现）。但是，这种格式的列名效率非常低，因此 Cassandra 最近（在 3.0 版中）切换到不同的文件格式，这是第一次接受集群键和模式完整的行作为一等公民。这是 7 年前无模式 Cassandra 棺材上的最后一颗钉子。Cassandra 现在一直是模式完整的。

cassandra - 与 Bigtable 相比，Cassandras 数据模型中列族的概念差异？

1 回答 1

Related

Reference