我有两个混乱名称的数据库,例如:
- 金达尔,鲍比
- 佛罗里达州州长鲍比·金达尔
- 鲍比·金达尔
- 3M公司
- 3M 智能手机
我需要找到匹配项。谁能指出我或建议如何在 Google Refine 中执行此操作的好方法?
这个链接给了我一个起点,但我可以使用进一步的建议: http ://blog.ouseful.info/2011/05/06/merging-datesets-with-common-columns-in-google-refine/
我有两个混乱名称的数据库,例如:
我需要找到匹配项。谁能指出我或建议如何在 Google Refine 中执行此操作的好方法?
这个链接给了我一个起点,但我可以使用进一步的建议: http ://blog.ouseful.info/2011/05/06/merging-datesets-with-common-columns-in-google-refine/
cell.cross 函数类似于 Excel 中的 vlookup,只有当您的两个单元格相同时才会匹配。如果您想使用此方法,您将需要大量集群和清理您的数据。
我支持迈克尔的回答。尝试协调服务: rdf one 或open reconcile。