2

我有两个带有标题和其他信息的数据集,但在数据集中 AI 有标题,在数据集中 BI 有标题和 URL。
我必须将 URL 从数据集 B 放入数据集 A 中。有些标题在 A 和 B 中是相同的,有些则不是,有些则略有不同(问题来了)。

所以我需要同时合并和聚类那些相似的。我知道我可以与 DBpedia 协调,但我需要的是在两个数据集之间“协调”。以某种方式可能吗?

谢谢你。

4

1 回答 1

2

您可以使用reconcile-csv应用程序(它不是 OpenRefine 的插件,而是运行本地协调 API 服务器的独立程序)。

将数据集B导出为 csv,第一行作为列名,然后启动 reconcile-csv,使用URL作为id列,名称作为搜索列:

java -Xmx2g -jar reconcile-csv-0.1.2.jar <CSV-File> <Search Column> <ID Column>

然后打开数据集A并添加http://localhost:8000/reconcile为对帐服务。协调后,cell.recon.match.id每个协调后的单元格都将包含 URL。

于 2015-07-10T15:02:23.343 回答