sparql - 结果中的 dbpedia html

Question

有时我在属性 dbpedia-owl:abstract 中识别出一些 html 片段

这是一个示例http://dbpedia.org/page/Albizia_julibrissin，您确实在英文摘要中看到了一些 html 片段（强调）：

本页是关于 Antonio Durazzini 所描述的树。约翰吉尔伯特贝克使用相同的学名来指代普兰的合欢，威廉罗克斯堡的含羞草。colspan=2 style="文本对齐：居中；背景颜色：透明；文本对齐：居中；边框：1px 纯红色；" | 波斯丝绸树文件：塞瓦斯托波尔的合欢树 1. jpg 习惯保护状态未评估 colspan=2 style="text-align: center; background-color: transparent; text-align:center; border: 1px solid red;" | 科学分类王国：植物科（未排序）：被子植物（未排序）：真双子叶植物（未排序）：蔷薇目：Fabales 科：豆科属：合欢属：A. julibrissin colspan=2 style="text-align: center; background-color:透明；文本对齐：居中；边框：1px 纯红色；" | 二项式名称 Albizia julibrissin colspan=2 style="text-align: center; background-color: transparent; text-align:center; border: 1px solid red;" | 同义词很多，见正文Albizia julibrissin是合欢属豆科植物的一种，原产于亚洲西南部和东部，从波斯东部到中国和韩国。它也被广泛称为“含羞草”和“波斯丝绸树”。该属以意大利贵族Filippo degli Albizzi命名，属于著名的佛罗伦萨家族Albizzi，他在18世纪中叶将其引入欧洲，并它有时拼写错误 Albizzia。具体的加词 julibrissin 是波斯语 gul-i abrisham (گل ابریشم) 的变体，意思是“丝花”（来自 gul گل “花” + abrisham ابریشم “丝绸”）。

有没有办法剥离/提取这些片段，以便抽象属性是人类可读的？

score 0 · Accepted Answer

这是数据输入 dbpedia 中的问题。标题

“这一页是关于 Antonio Durazzini 描述的树。John Gilbert Baker 使用相同的学名来指代 Prain 的 Albizia Kakora，即 William Roxburgh 的 Mimosa Kakora。”

通常不与属性 dbpedia-owl : abstract 关联。

从DBpedia SPARQL 端点，SPARQL 1.1 解决方案是：

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (strafter(?abstract,"see text ") as ?clean_abstract)
}

还有另一个解决方案，包括这个标题（但它不应该链接到这个属性）：

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (concat(strbefore(?abstract,"colspan="), strafter(?abstract,"see text ")) as ?clean_abstract)
}

sparql - 结果中的 dbpedia html

1 回答 1

Related

Reference