我从我的用户那里收集了一个 Facebook 好友列表,包括 First、Last、Gender 和 DOB。然后,我尝试将该名称数据库(存储为 MySQL 中的表)与包含类似信息的另一个数据库进行比较。
在第二个数据库是更大的记录集(> 500k 行)时,从概念上链接这些结果的最佳方法是什么?
这是我的提议:
- 遍历 Facebook 名称
- 搜索 Last + DOB - 如果它们匹配,则假定为“自信”匹配
- 搜索 Last + First - 如果它们匹配,则假定“可能”匹配
- 搜索 Last + Lichtenstein(First) 高于某个级别,假设“可能”匹配
是否有我遗漏的分布式计算概念可能比顺序 mySQL 方法更快?还有什么其他陷阱可能会出现,注意到没有误报比错过记录更重要?