nlp - 使用 SVM 时是否需要 TF-IDF？

Question

我正在使用支持向量机对短语进行分类。在使用 SVM 之前，我知道我应该对短语向量进行某种标准化。一种流行的方法是 TF-IDF。

具有最高 TF-IDF 分数的术语通常是最能表征文档主题的术语。

但这不正是 SVM 所做的吗？对最能描述文档特征的术语给予最高权重？

提前致谢：-）

score 2 · Accepted Answer

术语的权重（由 SVM 分类器分配）可能与该术语与特定类别的相关性成正比，也可能不成正比。这取决于分类器的内核以及使用的正则化。SVM 不会为最能表征单个文档的术语分配权重。

词频 (tf) 和逆文档频率 (idf) 用于对文档向量中词的值进行编码。这与 SVM 分类器无关。

1 回答 1