我正在尝试从某些文本中删除所有特殊字符,这是我的正则表达式:
pattern = re.compile('[\W_]+', re.UNICODE)
words = str(pattern.sub(' ', words))
超级简单,但不幸的是它在使用撇号(单引号)时会引起问题。例如,如果我有单词“doesn't”,则此代码将返回“doesn”。
有什么方法可以调整这个正则表达式,使其不会在这样的情况下删除撇号?
编辑:这是我所追求的:
doesn't this mean it -technically- works?
应该:
这是否意味着它在技术上有效