svm - SVM线性核中TF-IDF和TF的区别

Question

因为 IDF 是一个常数。一维中的所有值乘以一个常数。

在 SVM 线性内核中，结果会有所不同吗？

score 1 · Accepted Answer

你最初的问题并没有真正的意义。您将两个不同的世界混为一谈：1) TF/IDF：文本表示的特征 2) SVM - 线性内核：SVM 的最简单方法（确实用于文本）。

TF和TF/IDF的区别在于是否使用了词的语料库频率。TF/IDF 是迄今为止更好的选择，独立于分类器。

仅使用 TF，我们并不真正关心一个词是否常见。因此，像文章这样的常用词即使没有提供真实信息，也会获得很大的权重。

在 TF/IDF 中，一个词在语料库中出现的频率越高，它获得的权重就越小。因此，像文章这样的常见词获得的权重较小，但假设携带更多信息的稀有词获得更大的权重。

注意在上面，“文章”被用作示例，它们通常应该在预处理步骤中删除。

1 回答 1