我需要找出维基百科页面条目的模板类型。到目前为止,我一直依赖于将查询结果解析到维基百科,这在一定程度上是有效的。
例如,如果我搜索 Joel Spolsky,我可以正则表达式匹配 'infobox' 并发现该页面指的是Infobox Person。
但麻烦的是,维基百科模板类型没有一致的命名方案,模板名称中经常不使用“信息框”。
例如,如果我搜索Pittsburgh Steelers,我无法可靠地找到从结果中提取NFL 球队模板的方法。
有人知道查询维基百科页面模板类型的方法吗?谢谢 :)
我需要找出维基百科页面条目的模板类型。到目前为止,我一直依赖于将查询结果解析到维基百科,这在一定程度上是有效的。
例如,如果我搜索 Joel Spolsky,我可以正则表达式匹配 'infobox' 并发现该页面指的是Infobox Person。
但麻烦的是,维基百科模板类型没有一致的命名方案,模板名称中经常不使用“信息框”。
例如,如果我搜索Pittsburgh Steelers,我无法可靠地找到从结果中提取NFL 球队模板的方法。
有人知道查询维基百科页面模板类型的方法吗?谢谢 :)
最简单的方法是查看页面的类别而不是模板。例如,乔尔·斯波尔斯基(Joel Spolsky)的类别是“活着的人”,匹兹堡钢人队(Pittsburgh Steelers)的类别是“国家橄榄球联盟球队”。
也许DBpedia可以提供帮助。DBpedia 提取来自 Wikipedia 的结构化数据,提供下载并将其存储在可公开访问的数据库中。例如,在http://dbpedia.org/sparql尝试以下查询:
select distinct ?t where {
?t a <http://dbpedia.org/ontology/AmericanFootballTeam> .
}
它以 RDF 格式返回 DBpedia 已知的所有美式橄榄球队。现在几乎所有语言都有 RDF API,因此获取所需数据应该相对容易。