5

如果我将自定义停用词列表传递给TfidfVectorizer,何时会准确删除停用词?根据文档

stop_words : string{'english'}, list, 或None(默认)

...

如果是列表,则假定该列表包含停用词,所有这些都将从生成的标记中删除。仅适用于analyzer == 'word'

所以看起来这个过程是在标记化之后发生的,对吗?产生疑问是因为如果标记化还涉及词干,我认为存在错误地跳过(而不是删除)停用词的风险,因为在词干之后,它不再被识别。

4

1 回答 1

2

所以看起来这个过程是在标记化之后发生的,对吗?

你说的对。stop_words一旦令牌已经获得并转换为 n-gram 序列,就会应用 ,请参阅feature_extraction/text.py。标记器在预处理后立即接收文本,不涉及停用词。

默认分词器不会转换文本,但如果您提供自己的分词器来执行词干提取或类似操作,您也应该对停用词进行词干处理。或者,您可以在分词器功能内进行过滤。

于 2018-02-27T21:11:43.507 回答