database - 交叉引用多个多对多关系。我应该选择哪个数据库？

Question

我将建立一个在线内容平台。这个系统基本上有两个实体：内容和标签。标签以多对多的方式与内容相关。

如果我使用 SQL 数据库，它将被建模为：

内容 1-----* TC *-----1 TAG

鉴于此模型，我需要进行如下查询：

1）通过id获取内容

2) 通过一个标签获取内容 - “列出所有 MATH* 内容”

(*) MATH 是一个标签

3) 通过多个标签获取内容 - “列出所有 HARD* MATH* 内容”

4) 按内容属性过滤以上数据： - “列出上周创建的所有 HARD* MATH* 内容”

1 和 2 几乎不是问题，但我相信 3 和 4 会变得棘手。

在关系世界中，对于查询 (4)，我可以从 CONTENT 开始并多次加入 TC，如下所示：

select distinct(c.*) from CONTENT c, TC tc1, TC tc2
where tc1.content_id = c.id
and tc2.content_id = c.id
and tc1.id = <math_tag_id>
and tc2.id = <hard_tag_id>
and c.creation_date > <last_week>

但我不确定这在以下情况下是否能很好地扩展： - TC 有很多数据 - 我需要查询 4 到 8 个标签的交集

对此有什么想法吗？

在 noSQL 世界中，迄今为止我使用的唯一数据库是 BigTable。据我所知，BigTable 可能不是解决这个问题的最佳选择。如果我使用相同的“表”，对于（3）我可能会使用类似（假设 ndb+python）

tcs = TC.query(
    TC.tag_key.IN([math_tag_key, hard_tag_key])
).fetch()
content_keys = [tc.content_key for tc in tcs]
distinct_content_keys = set(content_keys) //eliminate repeated values
contents = ndb.get_multi(distinct_content_keys)

但，

我不知道当TC.tag_key.IN收到 4 到 8 个标签时这会表现如何（对此有什么想法吗？）
我无法进行查询 (4)，因为我无法加入 CONTENT（BigTable 不进行连接）。另一种方法是在 TC 中复制 CONTENT 的属性，这是一个 PITA。（在 BigTable 中有没有更好的方法来做到这一点？）

所以，这里更大的问题是：什么数据库最能解决这个问题？我倾向于研究 Graph 数据库，看看他们如何解决这个问题，但我认为我需要一些专家意见。

图形数据库真的是要走的路吗？Neo4J 是最佳选择吗？

score 3 · Accepted Answer

与关系数据库相比，图形数据库擅长的领域之一就是您描述的那种问题。如果关系数据库世界中的答案导致许多连接（许多连接可能依赖于数据库，但可能在 8 岁时开始成为问题，当然在 16 岁时开始成为问题），那么您应该查看图形数据库。

除了 Neo4J，您可能还想看看 Titan，无论哪种方式，您都可能想看看您是否想要蓝图或 Spring 之类的东西来帮助您将您与实现细节隔离开来（尽管如果您真的需要高表现）。

database - 交叉引用多个多对多关系。我应该选择哪个数据库？

1 回答 1

Related

Reference