我想在 HTML 源代码中查找 URL。但只有周围没有标签的 URL。我想出了这个:
(?<!")((http(s)?://|http(s)?://www\.|(?<!/)www\.)([\w\._\-/&%]+))(?!</a>)
它很好地避免了作为链接一部分的 URL,但也找到了标记的 URL...我认为通过测试“不跟随结束 a-tag”我可以避免标记的 URL...错误在哪里
<a href="https://foo.com">https://www.foo.com</a> <- should not hit
<span class="bar>www.test.de</span> <-HIT
"http://www.test.de" <- HIT
<a href="http://test.de">http://www.foo.com/_manno/Propello&%_-/ramblay</a> should not HIT
<span>http://www.test.de/alala </span> <-HIT