因为 IDF 是一个常数。一维中的所有值乘以一个常数。
在 SVM 线性内核中,结果会有所不同吗?
你最初的问题并没有真正的意义。您将两个不同的世界混为一谈:1) TF/IDF:文本表示的特征 2) SVM - 线性内核:SVM 的最简单方法(确实用于文本)。
TF和TF/IDF的区别在于是否使用了词的语料库频率。TF/IDF 是迄今为止更好的选择,独立于分类器。
仅使用 TF,我们并不真正关心一个词是否常见。因此,像文章这样的常用词即使没有提供真实信息,也会获得很大的权重。
在 TF/IDF 中,一个词在语料库中出现的频率越高,它获得的权重就越小。因此,像文章这样的常见词获得的权重较小,但假设携带更多信息的稀有词获得更大的权重。
注意在上面,“文章”被用作示例,它们通常应该在预处理步骤中删除。