我在 couchdb 中有文件。架构如下所示:
userId
email
personal_blog_url
telephone
我假设两个用户实际上是同一个人,只要他们有
- 电子邮件或
- 个人博客网址或
- 电话
相同。
我创建了 3 个视图,它们基本上将 email/blog_url/telephone 映射到 userIds,然后将 userIds 组合到同一键下的组中,例如,
_view/by_email:
----------------------------------
key values
a_email@gmail.com [123, 345]
b_email@gmail.com [23, 45, 333]
_view/by_blog_url:
----------------------------------
key values
http://myblog.com [23, 45]
http://mysite.com/ss [2, 123, 345]
_view/by_telephone:
----------------------------------
key values
232-932-9088 [2, 123]
000-111-9999 [45, 1234]
999-999-0000 [1]
我的问题:
- 如何将 3 个不同视图的结果合并到不包含重复项的最终用户表/视图中?
- 或者在 couchdb 中进行这种重复数据删除是否是一种好习惯?
- 或者什么是在沙发上进行重复数据删除的好方法?
附言。在最终视图中,假设对于所有受骗者,我们只保留最小的 userId。
谢谢。