我正在使用支持向量机对短语进行分类。在使用 SVM 之前,我知道我应该对短语向量进行某种标准化。一种流行的方法是 TF-IDF。
具有最高 TF-IDF 分数的术语通常是最能表征文档主题的术语。
但这不正是 SVM 所做的吗?对最能描述文档特征的术语给予最高权重?
提前致谢 :-)
我正在使用支持向量机对短语进行分类。在使用 SVM 之前,我知道我应该对短语向量进行某种标准化。一种流行的方法是 TF-IDF。
具有最高 TF-IDF 分数的术语通常是最能表征文档主题的术语。
但这不正是 SVM 所做的吗?对最能描述文档特征的术语给予最高权重?
提前致谢 :-)