17

从 Wikipedia 获取有关人员的所有文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是如何过滤这些页面并仅获取有关人员的页面?我需要尽可能多的(最好超过一百万),所以使用任何类型的 API 可能都不是一种选择。

4

3 回答 3

10

由于有关人员的文章通常包含 Persondata 模板,因此您只需搜索所有包含 Persondata 的文章。您可以在此处找到用于执行此操作的示例 API 查询:

Wikipedia API 是否支持搜索特定模板?

于 2010-11-07T23:21:44.060 回答
7

截至 2014 年,您还有另一个选择:查询WikiData以获取属性instance of(P31)具有值human(Q5)的所有实体。

人类的完整列表:https ://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

从该列表中,过滤掉任何没有sex or gender(P21)的内容,以摆脱“科学家”之类的页面</p>

这样,您无需跟踪维基百科的每个不同语言版本(有285个)中的人们使用了哪些模板。

于 2014-04-13T11:11:07.133 回答
4

如果您打算自行推出,基本上您需要关注的是 XML 转储中的“信息框数据”。

参考:http ://code.google.com/p/infobox2rdf/

或者您也可以查看 http://www.freebase.comhttp://dbpedia.org

于 2010-10-26T16:11:03.940 回答