1

我想提取维基百科中所有死者的列表,并比较他们死时的年龄。维基百科中的所有死者都填写了以下字段:

| birth_name = Thomas Alva Edison
| birth_date = {{birth date|mf=yes|1847|02|11}}
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}}

我将不得不做一个爬虫?Wikipedia API 中有什么可以帮助我的吗?有什么地方可以开始爬行吗?有死者名单吗?

4

2 回答 2

1

您可以在此处找到可供下载的 Wikipedia 的所有内容的转储:

http://dumps.wikimedia.org/enwiki/latest/

该文件是一个.xml数 GB 大小的文件,包含 Wikipedia 上所有页面的文本(以及其他内容)。你如何处理这取决于你将使用什么编程语言。

于 2011-07-24T00:38:27.717 回答
0

这就是DBpedia的用途——数据库中来自维基百科的所有结构化数据。在http://dbpedia.org/sparql尝试以下查询:

select distinct ?p, ?d where {
  ?p a <http://dbpedia.org/ontology/Person> .
  ?p <http://dbpedia.org/ontology/deathDate> ?d .
}
于 2012-07-09T15:46:21.220 回答