从 Wikipedia 获取有关人员的所有文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是如何过滤这些页面并仅获取有关人员的页面?我需要尽可能多的(最好超过一百万),所以使用任何类型的 API 可能都不是一种选择。
问问题
3820 次
3 回答
10
由于有关人员的文章通常包含 Persondata 模板,因此您只需搜索所有包含 Persondata 的文章。您可以在此处找到用于执行此操作的示例 API 查询:
于 2010-11-07T23:21:44.060 回答
7
截至 2014 年,您还有另一个选择:查询WikiData以获取属性instance of
(P31)具有值human
(Q5)的所有实体。
人类的完整列表:https ://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
从该列表中,过滤掉任何没有sex or gender
(P21)的内容,以摆脱“科学家”之类的页面</p>
这样,您无需跟踪维基百科的每个不同语言版本(有285个)中的人们使用了哪些模板。
于 2014-04-13T11:11:07.133 回答
4
如果您打算自行推出,基本上您需要关注的是 XML 转储中的“信息框数据”。
于 2010-10-26T16:11:03.940 回答