dbpedia - 从实时 dbpedia 转储生成不同的数据集

Question

我正在玩dbpedia 下载页面上提供的不同数据集，发现它有点过时了。

然后我从dbpedia live site下载了最新的转储。当我提取 6 月 30 日的文件时，我只得到了一个 37GB 的 .nt 文件。

我想从最新的转储中获取不同的数据集（例如下载页面上可用的不同 .nt 文件）。是否有脚本或流程可以做到这一点？

score 1 · Accepted Answer

解决方案1：

您可以使用 dbpedia 实时提取器。https://github.com/dbpedia/extraction-framework。您需要配置适当的提取器（例如：信息框属性提取器、抽象提取器等）。它将下载最新的维基百科转储并生成 dbpedia 数据集。

您可能需要进行一些代码更改才能仅获取所需的数据。我的一位同事为德国数据集做了这个。为此，您仍然需要大量磁盘空间。

解决方案2（我不知道是否真的可能。）：

对数据集上的所需属性执行 grep。您需要知道要获取的属性的确切 URI。

例如：获取所有主页：bzgrep ' http://xmlns.com/foaf/0.1/homepage ' dbpedia_2013_03_04.nt.bz2 >homepages.nt

它将为您提供所有带有主页的 N-triple。您可以将其加载到 rdf 存储中。

1 回答 1