我正在查询具有 3 个维度和 1 个度量的 DataCube(RDF 统计数据)。在这个数据立方体中,每个观察由 4 个语句组成(3 个用于维度,1 个用于度量,如下例所示(可在http://kaiko.getalp.org/sparql查询)。
SELECT distinct ?version ?lg ?relation ?count WHERE {
?o a qb:Observation;
qb:dataSet dbnstats:dbnaryNymRelationsCube;
dbnary:wiktionaryDumpVersion ?version;
dbnary:observationLanguage ?lg;
dbnary:nymRelation ?relation;
dbnary:count ?count.
}
查询返回如下内容:
版本 | lg | 关系 | 数数 |
---|---|---|---|
“20210601” | “ID” | 反义词 | 4 |
“20210601” | “ID” | 近似同义词 | 0 |
“20210601” | “ID” | 上位词 | 0 |
“20210601” | “ID” | 代名词 | 108 |
“20150602” | “ID” | 反义词 | 2 |
“20150602” | “ID” | 近似同义词 | 0 |
“20150602” | “ID” | 上位词 | 0 |
“20150602” | “ID” | 代名词 | 36 |
“20150702” | “ID” | 反义词 | 2 |
“20150702” | “ID” | 近似同义词 | 0 |
“20150702” | “ID” | 上位词 | 0 |
“20150702” | “ID” | 代名词 | 36 |
我想以关系的值为中心得到下表:
版本 | lg | 反义词 | 近似同义词 | 上位词 | 代名词 |
---|---|---|---|---|---|
“20210601” | “ID” | 4 | 0 | 0 | 108 |
“20150602” | “ID” | 2 | 0 | 0 | 36 |
“20150702” | “ID” | 2 | 0 | 0 | 36 |
我找不到一种方法来制作单个 SPARQL 查询来获得这个。目前,我需要使用我使用的任何客户端语言(此处为 python)获取所有数据并进行数据透视。
这在 SPARQL 1.1 中可行吗?如何 ?
我宁愿有一个一般性的答案,但接入点目前由 Virtuoso 提供服务。
编辑:为了更好地解释我的期望。在 DataCube Vocabulary 中,DataCube 的结构被描述为给出不同的维度和度量(通常由本体)。因此,维度和度量被认为是查询开发者已知的(至少对于特定版本的本体而言)。
在这里,nymRelation 的值是事先不知道的,它们是数据的一部分,而不是结构的一部分。Pivot 操作似乎是对 DataCube 的有效操作(以及切片、投影等)。
我想知道是否可以在服务器上进行这样的操作(通过不依赖于服务器上实际数据的通用查询)。这将使客户端可以维护一个 LAZY 数据立方体对象并在确实需要结果时推迟实际的枢轴操作。
我怀疑(并且第一个答案似乎暗示)如果不获取整个 DataCube(在客户端的内存中执行操作)或获取实际的不同属性值并自动制作取决于此的查询,则此操作是不可能的第一个结果。