python - 带有 Unicode 的 Python 正则表达式的 BackReference

翻译自：https://stackoverflow.com/questions/12106596 2012-08-24T09:25:58.677

493 次

1 回答 1

通过在它之前添加一个将字符串\1转换为原始字符串：r

output=p.sub(u'<a href="'+ URL +r'">\1</a>',content)

这可以防止 1 被解释为反向引用的 1。证明：

# -*- coding: utf-8 -*-
import re
KEYWORD = u"英語"
URL = u"http://www.google.com/"
content = u"和製英語（わせいえいご）とは、日本で作られた英語風の日本語語彙のことである。"
p=re.compile(u'('+ KEYWORD +u')(?!(([^<>]*?)>)|([^>]*?</a>))',re.UNICODE)
print p.sub(u'<a href="'+ URL +'">\1</a>',content)
print p.sub(u'<a href="'+ URL +r'">\1</a>',content)

印刷

和製<a href="http://www.google.com/"></a>（わせいえいご）とは、日本で作られた<a href="http://www.google.com/"></a>風の日本語語彙のことである。
和製<a href="http://www.google.com/">英語</a>（わせいえいご）とは、日本で作られた<a href="http://www.google.com/">英語</a>風の日本語語彙のことである。

只有后者有效（英语在谷歌链接内）。

于 2012-08-24T09:43:48.107 回答

python - 带有 Unicode 的 Python 正则表达式的 BackReference

1 回答 1

Related

Reference