1

我想核对大量记录,其中我有确切的维基百科文章标题(包括括号消歧)。根据 OpenRefine 中的确切维基百科标题匹配大量记录的最佳/最快方法是什么?如果我只是通过文本进行核对,那么可信度就会很低,并且具有相同标题的 Wikidata 条目会混淆。

4

2 回答 2

2

将您的值转换为 Wikipedia URL,例如使用以下 GREL 公式(假设所有文章都在英语 Wikipedia 上):

'https://en.wikipedia.org/wiki/'+value

然后,您可以将此列与 Wikidata 协调服务进行协调,该服务将识别这些 URL 并通过站点链接解析 Wikidata 项目。

如果您的文章标题包含消歧页面,则对帐将为您提供消歧项目,因此最好P31在对帐后通过获取它来仔细检查它们的类型 ( )。

于 2020-05-07T09:46:31.603 回答
0

我认为你正在从相反的方向接近。使用@Wikidata 数字,这些数字也可用于消歧页面!Wikidata 项目位于左侧窗格中。它提供消歧,语言中立且可查询。每个 Wikipedia 条目都有一个 Wikidata 条目。

可能还有一个 SPARQL 查询可以为您完成这项工作。如果您询问一些 Wikidatans,他们可以提供帮助。在 Twitter 上尝试@wikidatafacts。

如果您需要包含非链接文本(可能在某些禁用页面列表中),那么维基百科的手动性质将无济于事。但是你可以抽查那些异常值。

于 2020-05-07T12:38:43.830 回答