0

有时我在属性 dbpedia-owl:abstract 中识别出一些 html 片段

这是一个示例http://dbpedia.org/page/Albizia_julibrissin,您确实在英文摘要中看到了一些 html 片段(强调):

本页是关于 Antonio Durazzini 所描述的树。约翰吉尔伯特贝克使用相同的学名来指代普兰的合欢,威廉罗克斯堡的含羞草。colspan=2 style="文本对齐:居中;背景颜色:透明;文本对齐:居中;边框:1px 纯红色;" | 波斯丝绸树文件:塞瓦斯托波尔的合欢树 1. jpg 习惯保护状态 未评估 colspan=2 style="text-align: center; background-color: transparent; text-align:center; border: 1px solid red;" | 科学分类 王国:植物科(未排序):被子植物(未排序):真双子叶植物(未排序):蔷薇目:Fabales 科:豆科属:合欢属:A. julibrissin colspan=2 style="text-align: center; background-color:透明;文本对齐:居中;边框:1px 纯红色;" | 二项式名称 Albizia julibrissin colspan=2 style="text-align: center; background-color: transparent; text-align:center; border: 1px solid red;" | 同义词很多,见正文Albizia julibrissin是合欢属豆科植物的一种,原产于亚洲西南部和东部,从波斯东部到中国和韩国。它也被广泛称为“含羞草”和“波斯丝绸树”。该属以意大利贵族Filippo degli Albizzi命名,属于著名的佛罗伦萨家族Albizzi,他在18世纪中叶将其引入欧洲,并它有时拼写错误 Albizzia。具体的加词 julibrissin 是波斯语 gul-i abrisham (گل ابریشم) 的变体,意思是“丝花”(来自 gul گل “花” + abrisham ابریشم “丝绸”)。

有没有办法剥离/提取这些片段,以便抽象属性是人类可读的?

4

1 回答 1

0

这是数据输入 dbpedia 中的问题。标题

“这一页是关于 Antonio Durazzini 描述的树。John Gilbert Baker 使用相同的学名来指代 Prain 的 Albizia Kakora,即 William Roxburgh 的 Mimosa Kakora。”

通常不与属性 dbpedia-owl : abstract 关联。

DBpedia SPARQL 端点,SPARQL 1.1 解决方案是:

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (strafter(?abstract,"see text ") as ?clean_abstract)
}

还有另一个解决方案,包括这个标题(但它不应该链接到这个属性):

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (concat(strbefore(?abstract,"colspan="), strafter(?abstract,"see text ")) as ?clean_abstract)
}
于 2013-06-15T07:58:15.320 回答