有时我在属性 dbpedia-owl:abstract 中识别出一些 html 片段
这是一个示例http://dbpedia.org/page/Albizia_julibrissin,您确实在英文摘要中看到了一些 html 片段(强调):
本页是关于 Antonio Durazzini 所描述的树。约翰吉尔伯特贝克使用相同的学名来指代普兰的合欢,威廉罗克斯堡的含羞草。colspan=2 style="文本对齐:居中;背景颜色:透明;文本对齐:居中;边框:1px 纯红色;" | 波斯丝绸树文件:塞瓦斯托波尔的合欢树 1. jpg 习惯保护状态 未评估 colspan=2 style="text-align: center; background-color: transparent; text-align:center; border: 1px solid red;" | 科学分类 王国:植物科(未排序):被子植物(未排序):真双子叶植物(未排序):蔷薇目:Fabales 科:豆科属:合欢属:A. julibrissin colspan=2 style="text-align: center; background-color:透明;文本对齐:居中;边框:1px 纯红色;" | 二项式名称 Albizia julibrissin colspan=2 style="text-align: center; background-color: transparent; text-align:center; border: 1px solid red;" | 同义词很多,见正文Albizia julibrissin是合欢属豆科植物的一种,原产于亚洲西南部和东部,从波斯东部到中国和韩国。它也被广泛称为“含羞草”和“波斯丝绸树”。该属以意大利贵族Filippo degli Albizzi命名,属于著名的佛罗伦萨家族Albizzi,他在18世纪中叶将其引入欧洲,并它有时拼写错误 Albizzia。具体的加词 julibrissin 是波斯语 gul-i abrisham (گل ابریشم) 的变体,意思是“丝花”(来自 gul گل “花” + abrisham ابریشم “丝绸”)。
有没有办法剥离/提取这些片段,以便抽象属性是人类可读的?