2

我想计算特定语言的 wiki 转储中的实体/类别,比如英语。对于初学者来说,官方文档很难找到/遵循。到目前为止,我所了解的是,我可以下载一个 XML 转储(从所有可用的不同文件中下载什么),并解析它(?)以计算实体(文章主题)和类别。

这些信息,如果有的话,很难找到。请提供一些关于如何使用它或我可以了解它的资源的说明。

谢谢!

4

2 回答 2

1

转储相当笨重:即使是小的“真实”转储也是 25G。而且因为 RDF 相当冗长,所以扩展到 >100G。所以我的一般建议是避免转储。

如果您忍不住,https://wdumps.toolforge.org/dumps允许您使用您想要的语言/属性/实体创建自定义的转储子集。

然后,只需逐行阅读并......对每一行做一些事情

于 2020-07-24T21:52:27.970 回答
1

根据您的用例,确切的说明会有很大的不同。您可以从https://dumps.wikimedia.org/enwiki/下载转储文件并在本地解析它们,也可以联系 API。

如果您想解析转储,https://jamesthorne.co.uk/blog/processing-wikipedia-in-a-couple-of-hours/是一篇很好的文章,展示了如何做到这一点。

然而,解析转储并不总是最好的解决方案。例如,如果您想知道最大的三个页面,可以使用https://en.wikipedia.org/wiki/Special:LongPages

除了所有这些,您还可以使用https://quarry.wmflabs.org查询维基百科数据库的实时副本。可以在https://quarry.wmflabs.org/query/38441找到一个示例。

于 2020-09-30T19:28:00.063 回答