如果我将自定义停用词列表传递给TfidfVectorizer
,何时会准确删除停用词?根据文档:
stop_words :
string
{'english'},list
, 或None
(默认)...
如果是列表,则假定该列表包含停用词,所有这些都将从生成的标记中删除。仅适用于
analyzer == 'word'
。
所以看起来这个过程是在标记化之后发生的,对吗?产生疑问是因为如果标记化还涉及词干,我认为存在错误地跳过(而不是删除)停用词的风险,因为在词干之后,它不再被识别。