我使用以下代码对字符串进行标记,从标准输入读取。
d=[]
cur = ''
for i in sys.stdin.readline():
if i in ' .':
if cur not in d and (cur != ''):
d.append(cur)
cur = ''
else:
cur = cur + i.lower()
这给了我一组不重复的单词。但是,在我的输出中,有些单词没有被拆分。
我的输入是
Dan went to the north pole to lead an expedition during summer.
并且输出数组 d 是
['dan', 'went', 'to', 'the', 'north', 'pole', 'tolead', 'an', '远征', 'during', 'summer']
为什么tolead
在一起?