我想匹配以下标记
<text link="no">
...
</text>
唯一重要的是我想将带有 link="no" 的文本元素作为属性以及里面的任何内容进行匹配。
我正在使用 python,目前我有以下不工作的正则表达式:
'<text [^<]*link="no"[^<]*>[.\t\n\r\xa0]*</text>[ \t\n\r\xa0]*'
因此,我正在考虑该文本可能具有其他属性。
帮助将不胜感激!
使用 XML Parser(如libxml2或lxml或py-dom-xpath)和 XPath,如:
//text[@link="no"]