我正在开始一个个人项目,该项目涉及存储大型对象数据库和对象之间的关系。我选择了 Hadoop 和 HBase,因为它需要是多节点的,而且大部分数据都是稀疏的。
来自 RDBMS 世界,我花了很多时间阅读 HBase 的面向列的结构,并且鉴于当前的文档,我无法弄清楚如何存储对象和对象之间的关系。
对象本身可以与其他对象有无限数量的关系,以及无限数量的任意属性。关系也可以具有属性。我的目标是有两个由“已婚”关系链接的“人”对象,并且已婚关系有一个属性“日期”,我希望(将来)能够编写一个 MapReduce 来快速找到所有在 x 和 y 之间结婚的人。