首先,为什么您的解决方案不起作用。你混淆了很多概念。主要是字符类与其他字符类。在您使用的第一个字符类中,|
它源于alternation。在字符类中,您不需要管道。只需列出您想要的所有字符(和字符范围):
[Uu]
u
或者,如果您使用不区分大小写的修饰符,则只需编写。如果你在那里写一个管道,字符类实际上会匹配你的主题字符串中的管道。
现在在第二个字符类中,出于某种奇怪的原因,您使用逗号分隔字符。除了在可匹配字符中包含逗号之外,这也无济于事。s
并且W
可能应该是内置的字符类。然后逃离他们!否则它们只会匹配 literals
和 literal W
。但是\W
已经包含了您在此处列出的所有其他内容,因此\W
单独(不带方括号)就足够了。最后一部分(^a-zA-Z)
也不起作用,因为它将简单地将^
,(
和)
所有字母包含到字符类中。否定语法仅适用于整个字符类,例如[^a-zA-Z]
.
你真正想要的是断言你的 . 前面或后面没有字母u
。您可以为此使用环视。优点是它们不会包含在匹配中,因此不会被删除:
r'(?<![a-zA-Z])[uU](?![a-zA-Z])'
请注意,我使用了原始字符串。通常是正则表达式的好习惯,以避免转义序列出现问题。
这些是负面的环顾四周,确保您的 . 之前或之后没有字母字符u
。这是断言周围有一个非字母字符(与您所做的类似)的重要区别,因为后一种方法在字符串的开头或结尾不起作用。
当然,您可以you
从替换字符串中删除空格。
如果您不想替换u
数字旁边的数字,您可以轻松地将数字包含到字符类中:
r'(?<![a-zA-Z0-9])[uU](?![a-zA-Z0-9])'
如果由于某种原因相邻的下划线也会取消您u
的替换资格,您也可以将其包括在内。但是字符类与内置的一致\w
:
r'(?<!\w)[uU](?!\w)'
在这种情况下,这相当于 EarlGray 的r'\b[uU]\b'
.
如上所述,您可以通过使用不区分大小写的修饰符来缩短所有这些。以第一个表达式为例:
re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.I)
或者
re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.IGNORECASE)
取决于你的喜好。
我建议您阅读我在此答案中多次链接的教程。这些解释非常全面,应该让您在正则表达式方面有一个良好的开端,您可能迟早会再次遇到。