python - 在 sklearn TfidfVectorizer 中执行停用词删除过程时？

Question

如果我将自定义停用词列表传递给TfidfVectorizer，何时会准确删除停用词？根据文档：

stop_words : string{'english'}, list, 或None（默认）

...

如果是列表，则假定该列表包含停用词，所有这些都将从生成的标记中删除。仅适用于analyzer == 'word'。

所以看起来这个过程是在标记化之后发生的，对吗？产生疑问是因为如果标记化还涉及词干，我认为存在错误地跳过（而不是删除）停用词的风险，因为在词干之后，它不再被识别。

score 2 · Accepted Answer

所以看起来这个过程是在标记化之后发生的，对吗？

你说的对。stop_words一旦令牌已经获得并转换为 n-gram 序列，就会应用，请参阅feature_extraction/text.py。标记器在预处理后立即接收文本，不涉及停用词。

默认分词器不会转换文本，但如果您提供自己的分词器来执行词干提取或类似操作，您也应该对停用词进行词干处理。或者，您可以在分词器功能内进行过滤。

1 回答 1