grouping - 选择每组前 X 个结果

Question

我有一堆带有附加属性的 RDF Data Cube 观察，在我的例子中是记录该值的日期。

模式很简单，例如（省略其他维度/度量/属性）：

<obs1> a qb:Observation ;
  my:lastupdate '2017-12-31'^^xsd:date ;
  qb:dataSet <dataSet1> .

<obs2> a qb:Observation ;
  my:lastupdate '2016-12-31'^^xsd:date ;
  qb:dataSet <dataSet1> .

<obs2_1> a qb:Observation ;
  my:lastupdate '2017-12-31'^^xsd:date ;
  qb:dataSet <dataSet2> .

<obs2_2> a qb:Observation ;
  my:lastupdate '2015-12-31'^^xsd:date ;
  qb:dataSet <dataSet2> .

所以我qb:DataSet的商店里有多个。现在我想找出my:lastupdate每个数据集的最后 X 个值。假设我想要每个特定数据集的最后 5 个值。

对于一个特定的数据集，我可以很容易地做到这一点：

SELECT * WHERE {

  ?observation my:lastupdate ?datenstand ;
                 qb:dataSet <dataSet1>                                                                                                                                            
} ORDER BY DESC(?datenstand) LIMIT 5

但是，如果在每个数据集的单个 SPARQL 查询中完全可以做到这一点，我会有点迷茫。我尝试了与子选择、LIMIT 和 GROUP BY 组合的各种组合，但没有任何结果导致我正在寻找的结果。

score 4 · Accepted Answer

这种查询模式在现已解散的 SemanticOverflow Q+A 网站上详细讨论为“获取每个国家/地区的 3 个最大城市”，并且普遍的共识是“获取每个主项目的前 n 个相关项目”形式的查询是无法以有效的方式使用单个 SPARQL 查询进行管理。

核心问题是嵌套查询是自下而上评估的，GROUP/LIMIT 子句将应用于整个结果集而不是每个组。

自下而上规则唯一有用的例外是(not) exists过滤器，它对当前绑定具有可见性。您可以利用这一事实编写如下查询：

select ?country ?city ?population where {

    ?country a :Country; :city ?city.
    ?city :population ?population.

    filter not exists { select * where {

        ?country :city ?_city.
        ?_city :population ?_population.

        filter ( ?_population > ?population )

    } offset 3 }

} order by ?country desc(?population)

不幸的是，这种方法通常不适用于大型现实世界数据集，因为它涉及扫描和过滤每个国家/城市组的笛卡尔积。

grouping - 选择每组前 X 个结果

1 回答 1

Related

Reference