我将单词定义为可能还包含撇号的字符序列(从 a 到 Z)。我希望将一个句子分成单词,并从单词中删除撇号。
我目前正在执行以下操作以从一段文本中获取单词。
import re
text = "Don't ' thread \r\n on \nme ''\n "
words_iter = re.finditer(r'(\w|\')+', text)
words = (word.group(0).lower() for word in words_iter)
for i in words:
print(i)
这给了我:
don't
'
thread
on
me
''
但我不想要的是:
dont
thread
on
me
我怎样才能改变我的代码来实现这一点?
请注意,'
我的输出中没有。
我也想words
成为一个发电机。