我正在尝试使用 Neo4j 构建 MDM。我只是想用一些属性来模拟我们的客户数据库,比如电子邮件、documentNumber、地址、电话、手机等。
问题是我们的数据库太脏了。例如,我有具有相同 documentNumber 的用户(它就像一个 ssn。)。当我查看这些注册表时,我可以看到它们实际上是同一个人。
为了通过关系发现模式,我需要删除/清理记录。但是我担心在重复记录时会丢失信息。
第一种方法:
<customer>
<name>Maria da Silva</name>
<document>108518037-92</document>
<phone>
<areaCode>21</areaCode>
<number>2247223A<number>
<phone>
</customer>
<customer>
<name>Maria da S.</name>
<document>10851803792</document>
<phone>
<areaCode>21</areaCode>
<number>2247-2236<number>
<phone>
</customer>
所以我可以存储图表:(使用“密码”语言)
person1:Person {name:"Maria da Silva", document:"108518037-92"}
phone1:Phone {areaCode:"21", number:"2247223A"}
person1-[owns]->phone1
person2:Person {name:"Maria da S", document:"10851803792"}
phone2:Phone {areaCode:"21", number:"2247-2236"}
person2-[owns]->phone2
然后我可以创建一个规范化/清理过的节点:
person_mdm:PersonMdm {name:"MARIA DA SILVA", document:"10851803792"} // now i have to choose a name
phone_mdm:PhoneMdm {areaCode:"21", number:"22472236"} // and choose a phone too
然后将原始节点链接到规范化节点:
person_mdm-[references]->person1
person_mdm-[references]->person2
phone_mdm-[references]->phone1
phone_mdm-[references]->phone2
person_mdm-[owns]->phone_mdm
第二种方法
将 mdm 节点与包含哈希的属性列表一起存储。这些哈希引用了其他数据库(例如 MongoDB)中的记录:
person_mdm:PersonMdm {name:"MARIA DA SILVA", document:"10851803792", hash:[XXX, YYY]}
phone_mdm:PhoneMdm {areaCode:"21", number:"22472236", hash: [ZZZ, KKK]}
person_mdm-[owns]->phone_mdm
第一种方法:
(+) 与第二种方法相比,它易于实现
(+) 我将所有节点都放在一个数据库中
(-) 节点数爆炸
(-) 查询更复杂
第二种方法:
(+) 查询简洁明了
(-) MDM 信息存储在两个不同的数据库中(维护)
(-) 必须维护两个独立的数据库