我知道 live.dbpedia.org 更接近 dbpedia.org 数据的实时版本,但这引发了一个问题,常规 dbpedia 提取/更新过程多久运行一次?数据转储多久更新一次?此外,据说主端点除了从维基百科中提取的数据集之外,还包含其他数据集。
dbpedia.org、live.dbpedia.org 和数据转储之间的数据有什么区别?
我知道 live.dbpedia.org 更接近 dbpedia.org 数据的实时版本,但这引发了一个问题,常规 dbpedia 提取/更新过程多久运行一次?数据转储多久更新一次?此外,据说主端点除了从维基百科中提取的数据集之外,还包含其他数据集。
dbpedia.org、live.dbpedia.org 和数据转储之间的数据有什么区别?
我为一个项目对 DBpedia 做了一些研究,我将分享我的发现:
http://dbpedia.org/sparql:此端点使用DBpedia Downloads 2014 ( WayBackMachineLink ) 中的大部分数据集。有关它正在使用的数据集的完整列表以及更多信息,请访问此站点:Datasets Loaded 2014 ( WayBackMachineLink )。那么下载的更新频率是多少?请参阅下载的更改日志。
http://live.dbpedia.org/sparql:此端点正在使用来自DBpedia live的数据。如果您查看实时变更集,您会发现有时它至少每小时更新一次,有时就像在 2014 年 9 月那样每月仅更新一次。DBpedia 是这么说的:
问:DBpedia 的实时更新(变更集)具有年/月/日/小时/xxxx.nt.gz 的结构。如果两者之间有一些间隙,例如缺少一个小时的文件夹,这意味着什么?
A:这意味着当时服务已经关闭。
DBpedia live - 3. 新功能(WayBackMachineLink)说:
5.同步工具的开发:同步工具使DBpedia Live 镜像与我们的直播端点保持同步。它按顺序下载变更集文件,解压缩它们,并将它们与另一个 DBpedia Live 镜像集成。
因此,我认为如果您在应用变更集时与实时端点同步,则实时端点也在应用变更集。