python - Python中的Re.sub不起作用

Question

假设：

s = '<A HREF="http://www.google.com" ID="test">blah</A>'

我想在 url 前面加上“url:”，所以我尝试了：

s = re.sub(r'href="([\w:/.]+)"', "url: " + r'\1', s, re.I)

但这并没有改变s。

score 4 · Accepted Answer

re.I是在错误的位置（它被解释为论点count）。

从文档中：

re.sub(pattern, repl, string, count=0, flags=0)
                              ^^^^^    ^^^^^

尝试：

In [27]: re.sub(r'href="([\w:/.]+)"', "url: " + r'\1', s, flags=re.I)
Out[27]: '<A url: http://www.google.com ID="test">blah</A>'

score 2 · Accepted Answer

虽然另一个答案在技术上是绝对正确的，但我认为你不想要那里提到的内容。

相反，您可能想要使用匹配对象：

m = re.search(r'href="([\w:/.]+)"', s, re.I)
print m.expand(r"url: \1")

结果是

url: http://google.com

没有<A前面和ID="test">blah</A>后面。

（如果您想做更多这些替换，您甚至可能希望通过编译来重用正则表达式：

r = re.compile(r'href="([\w:/.]+)"', re.I)
ex = lambda st: r.search(st).expand(r"url: \1")
print ex('<A HREF="http://www.google.com" ID="test">blah</A>')
print ex('<A HREF="http://www.yahoo.com" ID="test">blah</A>')
# and so on.

但是，如果您确实希望将 HTML 保留在其周围，则必须使用前瞻和后瞻表达式：

re.sub(r'(?<=href=")([\w:/.]+)(?=")', "url: " + r'\1', s, flags=re.I)
# -> '<A HREF="url: http://www.google.com" ID="test">blah</A>'

或者简单地重复省略的东西：

re.sub(r'href="([\w:/.]+)"', r'href="url: \1"', s, flags=re.I)
# -> '<A href="url: http://www.google.com" ID="test">blah</A>'

python - Python中的Re.sub不起作用

2 回答 2

Related

Reference