我有两个带有标题和其他信息的数据集,但在数据集中 AI 有标题,在数据集中 BI 有标题和 URL。
我必须将 URL 从数据集 B 放入数据集 A 中。有些标题在 A 和 B 中是相同的,有些则不是,有些则略有不同(问题来了)。
所以我需要同时合并和聚类那些相似的。我知道我可以与 DBpedia 协调,但我需要的是在两个数据集之间“协调”。以某种方式可能吗?
谢谢你。
我有两个带有标题和其他信息的数据集,但在数据集中 AI 有标题,在数据集中 BI 有标题和 URL。
我必须将 URL 从数据集 B 放入数据集 A 中。有些标题在 A 和 B 中是相同的,有些则不是,有些则略有不同(问题来了)。
所以我需要同时合并和聚类那些相似的。我知道我可以与 DBpedia 协调,但我需要的是在两个数据集之间“协调”。以某种方式可能吗?
谢谢你。
您可以使用reconcile-csv应用程序(它不是 OpenRefine 的插件,而是运行本地协调 API 服务器的独立程序)。
将数据集B导出为 csv,第一行作为列名,然后启动 reconcile-csv,使用URL作为id列,名称作为搜索列:
java -Xmx2g -jar reconcile-csv-0.1.2.jar <CSV-File> <Search Column> <ID Column>
然后打开数据集A并添加http://localhost:8000/reconcile
为对帐服务。协调后,cell.recon.match.id
每个协调后的单元格都将包含 URL。