4

我正在尝试从维基百科转储中提取跨语言链接。这些链接似乎已移至 WikiData 项目,并且仅通过 API 提供访问权限。

此分支解释了如何处理该问题并建议切换到 API: 从导出的 Wikipedia 文章中检索跨语言链接?

但是,我的研究范围似乎太大而无法使用 Web API(数百万个查询)。有谁知道是否可以从 API 以外的任何地方提取这些链接?解析任何大小的转储比查询 API 更可取。

我使用的维基百科转储:http: //dumps.wikimedia.org/backup-index.html

我使用的 WikiData 转储:http: //dumps.wikimedia.org/wikidatawiki/latest/

4

1 回答 1

2

一个非常优秀的用于轻松处理 Wikidata 转储的库是Wikidata Toolkit,它为您抽象了很多细节。在最新版本0.3中,有越来越多的示例脚本可以帮助完成像您这样的基本任务。在示例自述文件中,我们发现SitelinksExample.java

该程序展示了如何获取有关在 Wikidata 转储中使用的站点链接的信息。维基媒体项目的链接使用诸如英语维基百科的“enwiki”或希伯来语 WikiVoyage 的“hewikivoyage”之类的键。为了找出这些代码的含义,并为这些项目的文章创建 URL,Wikidata Toolkit 包含一些简单的功能,用于下载和处理给定项目的站点链接信息。这个例子展示了如何使用这个功能。

于 2014-10-01T06:24:15.800 回答