python - Python re.sub 使用非贪婪模式 (.*?) 和字符串结尾 ($) 它变得贪婪！

Question

代码：

str = '<br><br />A<br />B'
print(re.sub(r'<br.*?>\w$', '', str))

它应该返回 A，但它返回一个空字符串''！

有什么建议吗？

score 7 · Accepted Answer

贪婪从左到右起作用，但不是相反。它的基本意思是“除非你不匹配，否则不匹配”。这是发生了什么：

幸运的是，有一个简单的解决方案：通过替换<br[^>]*>\w$，您不允许在标签之外进行匹配，因此它应该替换最后一个匹配项。
严格来说，这不适用于 HTML，因为标签属性可以包含 >字符，但我认为这只是一个示例。

score 1 · Accepted Answer

以后不会像那样开始不贪婪。它匹配第一个<br并且将非贪婪地匹配其余部分，实际上需要转到字符串的末尾，因为您指定了$.

要使其按您想要的方式工作，请使用

/<br[^<]*?>\w$/

但通常不建议使用正则表达式来解析 HTML，因为某些属性的值可以包含<或包含>在其中。

2 回答 2