我正在尝试从一串文本中删除停用词:
from nltk.corpus import stopwords
text = 'hello bye the the hi'
text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))])
我正在处理 600 万个这样的字符串,所以速度很重要。分析我的代码,最慢的部分是上面的行,有没有更好的方法来做到这一点?我正在考虑使用正则表达式之类的东西,re.sub
但我不知道如何为一组单词编写模式。有人可以帮我一把,我也很高兴听到其他可能更快的方法。
注意:我尝试了某人的包装建议,stopwords.words('english')
但这set()
没有任何区别。
谢谢你。