1

我到底想做的是:

输入:维基百科 xml 转储

输出:像这样的三元组列表:

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .

...

..

.

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .

我们已经建立和定制了 dbpedia 提取框架,但我认为配置框架来提取这些数据会很困难。我对提取框架没有任何提取器的事实感到震惊!

4

1 回答 1

3

所有框架提取器都在文章名称或文章正文中查找特定模式。如果您可以在列表页面中识别出任何其他文章中不存在的内容,那么它将能够创建一个...

否则,您可以使用页面链接(从页面到页面的链接)并过滤您想要的文章。这可能会给你你想要的(有点)

于 2011-02-04T22:16:32.800 回答