我需要获取 html 页面中所有“标题”属性的值。我使用树枝模板,所以源代码可以是:
<a href="#" title="some {% func "smth" %} text">
我使用此代码获取标题值:
/<[a-z]+[^>]*\s+(title|alt)\s*=\s*("[^"]*")/
但是当标题有{% func "smth" %}
我得到下一个字符串时:
"some {% func "
如何获得完整的字符串?
更新: DOM 不是一个解决方案,因为它会将上面的示例链接解释为
<a href="#" title="some {% func " smth text></a>