这个问题与匹配姓名/地址数据的工具有关。SAS、Oracle、Microsoft 等提供了许多商业工具,允许对来自多个来源的个人或公司的名称进行去重或合并。
但是,在阅读了前面提到的问题的答案后,我想知道为什么一个看似有趣的问题没有收到任何提到可以解决该问题的开源项目的答案。
您是否知道任何开源项目或算法来实现所谓的“记录链接”、“记录合并”或“集群”?
这个问题与匹配姓名/地址数据的工具有关。SAS、Oracle、Microsoft 等提供了许多商业工具,允许对来自多个来源的个人或公司的名称进行去重或合并。
但是,在阅读了前面提到的问题的答案后,我想知道为什么一个看似有趣的问题没有收到任何提到可以解决该问题的开源项目的答案。
您是否知道任何开源项目或算法来实现所谓的“记录链接”、“记录合并”或“集群”?
我建议将Google Refine作为一个开源(新 BSD 许可证)工具来解析和修复粗糙的数据。它还允许对重复数据进行聚类和协调,并具有数据挖掘功能。
我用它成功地导入和修复了各种格式的数据,.csv、.tsv、.xls、.xml、.json、.rdf 等。它可以在内部使用而无需向外部发送任何数据,这似乎是“匹配名称/地址数据的工具”问题的关注点
注意。Google Refine 以前称为 Freebase Gridworks。
我偶然发现了以下文章:“合并/清除和重复检测”。
通过查看http://www.semaphorecorp.com ,我发现了一些极低的价格。
这不是我要找的,但至少是一点帮助,也是朝着正确方向迈出的一步。
在 sourceforge 上尝试 OSDQ 开源数据质量和分析项目