0

我需要找出维基百科页面条目的模板类型。到目前为止,我一直依赖于将查询结果解析到维基百科,这在一定程度上是有效的。

例如,如果我搜索 Joel Spolsky,我可以正则表达式匹配 'infobox' 并发现该页面指的是Infobox Person

但麻烦的是,维基百科模板类型没有一致的命名方案,模板名称中经常不使用“信息框”。

例如,如果我搜索Pittsburgh Steelers,我无法可靠地找到从结果中提取NFL 球队模板的方法。

有人知道查询维基百科页面模板类型的方法吗?谢谢 :)

4

2 回答 2

1

最简单的方法是查看页面的类别而不是模板。例如,乔尔·斯波尔斯基(Joel Spolsky)的类别是“活着的人”,匹兹堡钢人队(Pittsburgh Steelers)的类别是“国家橄榄球联盟球队”。

于 2011-02-07T20:14:30.270 回答
0

也许DBpedia可以提供帮助。DBpedia 提取来自 Wikipedia 的结构化数据,提供下载并将其存储在可公开访问的数据库中。例如,在http://dbpedia.org/sparql尝试以下查询:

select distinct ?t where {
  ?t a <http://dbpedia.org/ontology/AmericanFootballTeam> .
}

它以 RDF 格式返回 DBpedia 已知的所有美式橄榄球队。现在几乎所有语言都有 RDF API,因此获取所需数据应该相对容易。

于 2012-07-09T15:52:35.817 回答