我正在使用 libsvm 进行文档分类。
我只在我的项目中使用 svm.h 和 svm.cc。
它的结构 svm_problem 需要非零的 svm_node 数组,因此使用稀疏。
我得到了一个 tf-idf 单词的向量,可以说在 [5,10] 范围内。如果我将其标准化为 [0,1],则所有 5 都将变为 0。
发送到 svm_train 时我应该删除这些零吗?
删除这些是否不会减少信息并导致不良结果?
我应该从 0.001 而不是 0 开始标准化吗?
好吧,一般来说,在 SVM 中,[0,1] 中的归一化不会减少信息吗?