我正在尝试在 Wikidata 转储中提取与语言相关的文章。在互联网上搜索后,我发现有一个名为Wikidata Toolkit的工具可以帮助处理这些类型的数据。但是没有关于如何找到不同语言的相关文章的信息。例如,英语中的文章:“Dresden”与意大利语中 的文章: “Dresda”相关。我的意思是第二个是第一个的翻译版本。我尝试使用该工具包,但找不到任何解决方案。请写一些关于如何找到这篇相关文章的例子。
问问题
1072 次
1 回答
1
您可以使用 Wikidata dump [1] 来获取多语言维基百科之间的文章映射。
例如,如果您在底部看到 Respiratory System[2] 的 wikidata 条目,您会看到所有以其他语言引用同一主题的文章。
该映射在 wikidata 转储中可用。只需下载 wikidata 转储并获取映射,然后从 wikipedia 转储中获取相应的文本。您可能会遇到一些其他问题,例如解决维基百科重定向。
[1] https://dumps.wikimedia.org/wikidatawiki/entities/ [2] https://www.wikidata.org/wiki/Q7891
于 2018-02-05T04:59:01.793 回答