rdf - 通过正则表达式查询主题或谓词

Question

鉴于此 RDF：

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE rdf:RDF [<!ENTITY rdf 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
<!ENTITY rdfs 'http://www.w3.org/2000/01/rdf-schema#'>
<!ENTITY xsd 'http://www.w3.org/2001/XMLSchema#'>]>

<rdf:RDF xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
         xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
         xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
  <rdf:Description rdf:about="Fadi" xml:startTime="00:01:38" xml:endTime="00:01:39">
    <ns0:eat xmlns:ns0="http://example.org/">Apple</ns0:eat>
  </rdf:Description>
</rdf:RDF>

当我执行这个 SPARQL 查询时

SELECT *
WHERE {
  ?s ?p ?o . 
  FILTER (regex(?o, 'Apple','i'))
}

我得到了主语和谓语：

s: http://example.org/Fadi , p: http://example.org/eat .

但是当我执行

SELECT *
WHERE {
  ?s ?p ?o .
  FILTER (regex(?s, 'Fadi','i'))
}

或者

SELECT *
WHERE {
  ?s ?p ?o .
  FILTER (regex(?s, 'http://example.org/Fadi','i'))
}

我什么都得不到。如何查询主语或谓语？如何查询startTimeand endTime？

score 12 · Accepted Answer

REGEX用于查询文本值，而不是用于匹配资源 IRI。您可以使用该str函数来获取资源的 IRI，因此您的过滤器看起来像

FILTER (regex( str( ?s ), 'http://example.org/Fadi','i'))

但这真的不是你想在这里做的。由于您要检索表单的三元组

<http://example.org/Fadi> ?p ?o

用这样的查询询问他们：

SELECT *
WHERE {
  <http://example.org/Fadi> ?p ?o .
}

您也可以在 SPARQL 查询中定义前缀，因此如果您使用来自一个命名空间的一堆术语，您可以节省一些输入，例如，

PREFIX ex: <http://example.org/>
SELECT * 
WHERE {
 ex:Fadi ?p ?o .
}

但是，您的示例还有另一个问题。您的 RDF 文档没有任何 XML 基础，in 的 IRIFadi是<rdf:Description rdf:about="Fadi" ...不可预测的。SPARQL 引擎可能会根据文件名解析它，例如创建/home/user/input.rdf/Fadi. 要么指定一个 XML 基础，要么对rdf:about属性使用完整的 IRI。假设我们添加xml:base="http://www.example.org/"到rdf:RDF元素，我们可以使用Jena ARQ命令行工具运行这些查询，我们得到包含我们期望的三元组的输出，还有一些关于这些startTime和endTime属性的消息：

$ arq --data fadi.rdf --query fadi.sparql 
12:13:21 WARN  riot                 :: {W118} XML attribute: xml:startTime is not known and is being discarded.
12:13:21 WARN  riot                 :: {W118} XML attribute: xml:endTime is not known and is being discarded.
----------------------------------------------------
| s                             | p      | o       |
====================================================
| <http://www.example.org/Fadi> | ex:eat | "Apple" |
----------------------------------------------------

这些属性值需要由元素内的rdf:Description元素指定。我不认为这是有意义xml:startTime的xml:endTime属性；无论开始时间和结束时间在这里意味着什么，它们可能应该由不同的属性指定，但这是一个建模问题，而不是语法问题。无论如何，我们可以相应地调整输入文件以获得（使用xml:baseandxml:(start|end)Time元素）：

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE rdf:RDF [<!ENTITY rdf 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
<!ENTITY rdfs 'http://www.w3.org/2000/01/rdf-schema#'>
<!ENTITY xsd 'http://www.w3.org/2001/XMLSchema#'>]>

<rdf:RDF xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
         xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
         xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
         xml:base="http://www.example.org/">
  <rdf:Description rdf:about="Fadi">
    <ns0:eat xmlns:ns0="http://example.org/">Apple</ns0:eat>
    <xml:startTime>00:01:38</xml:startTime>
    <xml:endTime>00:01:39</xml:endTime>
  </rdf:Description>
</rdf:RDF>

现在当我们运行查询时，我们得到

$ /usr/local/lib/apache-jena-2.10.0/bin/arq --data fadi.rdf --query fadi.sparql 
------------------------------------------------------------------------------------------------
| s                             | p                                               | o          |
================================================================================================
| <http://www.example.org/Fadi> | <http://www.w3.org/XML/1998/namespaceendTime>   | "00:01:39" |
| <http://www.example.org/Fadi> | <http://www.w3.org/XML/1998/namespacestartTime> | "00:01:38" |
| <http://www.example.org/Fadi> | ex:eat                                          | "Apple"    |
------------------------------------------------------------------------------------------------

这似乎是你想要的。更具体的查询，例如，Fadi 的开始和结束时间，也很容易构建。使用目前出现的startTimeandendTime属性（即使它们稍后应该被重构为不同的命名空间），我们有：

PREFIX ex: <http://www.example.org/>
PREFIX xml: <http://www.w3.org/XML/1998/namespace>
SELECT *
WHERE {
  ex:Fadi xml:startTime ?start ;
          xml:endTime ?end .
}

产生

$ /usr/local/lib/apache-jena-2.10.0/bin/arq --data fadi.rdf --query fadi.sparql 
---------------------------
| start      | end        |
===========================
| "00:01:38" | "00:01:39" |
---------------------------

score 7 · Accepted Answer

?s 是一个 URI，正则表达式适用于字符串。使用str函数获取字符串：

FILTER (regex(str(?s), 'Fadi','i'))

rdf - 通过正则表达式查询主题或谓词

2 回答 2

Related

Reference