8

我正在尝试使用已编译的正则表达式从字符串中匹配和删除列表中的所有单词,但我正在努力避免单词中出现。

当前的:

 REMOVE_LIST = ["a", "an", "as", "at", ...]

 remove = '|'.join(REMOVE_LIST)
 regex = re.compile(r'('+remove+')', flags=re.IGNORECASE)
 out = regex.sub("", text)

在:“敏捷的棕色狐狸跳过一只蚂蚁”

出:“快棕狐跳过t”

预期:“快褐狐跳过去”

我尝试更改字符串以编译为以下内容,但无济于事:

 regex = re.compile(r'\b('+remove+')\b', flags=re.IGNORECASE)

有什么建议还是我错过了一些非常明显的东西?

4

2 回答 2

19

这是您可能要考虑的不使用正则表达式的建议:

>>> sentence = 'word1 word2 word3 word1 word2 word4'
>>> remove_list = ['word1', 'word2']
>>> word_list = sentence.split()
>>> ' '.join([i for i in word_list if i not in remove_list])
'word3 word4'
于 2013-03-15T15:19:03.777 回答
13

一个问题是只有第一个\b在原始字符串中。第二个被解释为退格字符(ASCII 8)而不是单词边界。

修复,改变

regex = re.compile(r'\b('+remove+')\b', flags=re.IGNORECASE)

regex = re.compile(r'\b('+remove+r')\b', flags=re.IGNORECASE)
                                 ^ THIS
于 2013-03-15T15:11:33.900 回答