1

我有很多这样的三元组:

?s ex:url ?url

?url可以在哪里:

www.ex.com/data/1.html
www.ex.com/data/2.html
www.google.com/search
...

是否有可能使用 SPARQL 查询以某种方式过滤查询并获得不同的域列表?在示例中,www.ex.comwww.google.com

像这样的东西:

SELECT distinct ?url
WHERE { ?s ex:url ?url }

但是对待每个 url 绑定。当然,我可以全部获取它们,并在我的程序中逐个处理每个 url,但我认为 sparql 查询会更节省内存。我正在使用 Stardog - 如果它有一些自定义功能。

4

2 回答 2

5

您可以使用不需要正则表达式的字符串操作来执行此类操作。例如,您可以在“//”之后和“/”之前获取 URL 的字符串形式部分:

select ?url ?hostname {
  values ?url { <http://example.org/index.html> }
  bind(strbefore(strafter(str(?url),"//"),"/") as ?hostname)
}
---------------------------------------------------
| url                             | hostname      |
===================================================
| <http://example.org/index.html> | "example.org" |
---------------------------------------------------

这不使用正则表达式,并且可能比使用正则表达式函数的解决方案更快。

但是,这可能仍然让您获得的不仅仅是主机名,例如,如果 URL 类似于http://username:password@example.org:8080,您将获得username:password@example.org:8080,其中不仅仅是主机名。

要更仔细地执行此操作,您需要选择 URI/URL 等规范之一,例如RFC 3986,并查看有关语法组件的部分。该语法的一些相关产生是:

URI         = scheme ":" hier-part [ "?" query ] [ "#" fragment ]

      hier-part   = "//" authority path-abempty
                  / path-absolute
                  / path-rootless
                  / path-empty

权限组件以双斜杠 ("//") 开头,并由下一个斜杠 ("/")、问号 ("?") 或数字符号 ("#") 字符或结尾终止的 URI。

authority   = [ userinfo "@" ] host [ ":" port ]

我不会完成所有这些工作(也许使用正则表达式来处理复杂情况会更有意义),但从 SPARQL 结果中获取 URI 然后使用实际的 URI 解析库可能是最简单的获取主机名。这是最可靠的解决方案,因为 URI 可能非常复杂。

于 2016-10-21T21:41:28.513 回答
4

REPLACEREGEX一起使用:

BIND(REPLACE(STR(?url), "^(.*?)/.*", "$1") AS ?domain)

Yasgui 中的示例

编辑:正如@JoshuaTailor 在评论中指出的那样,如果 ?url 中没有方案,则STRBEFORE会更好:

BIND(STRBEFORE(?url, "/") AS ?domain)

如果您需要担心 URL 方案(这会丢弃方案):

BIND(REPLACE(STR(?url), "^(https?://)?(.*?)/.*", "$2") AS ?domain)

当然,以上仅适用于基本的 http(s) URL,如果需要处理任意 URL,正则表达式会变得更加复杂。

这是一个处理任何或缺少的方案、端口号、身份验证信息和缺少的尾部斜杠的方法:

BIND(REPLACE(?url, "^(?:.*?://)?(?:.*?@)?([^:]+?)(:\\d+)?((/.*)|$)", "$1") AS ?domain)

请注意,使用正则表达式的查询可能会非常慢。

于 2016-10-21T18:56:40.313 回答