我正在尝试将SVM用于新闻文章分类。
我创建了一个表,其中包含作为行的特征(在文档中找到的唯一词)。我用这些特征创建了权重向量映射。即,如果文章有一个词是特征向量表的一部分,则该位置被标记为1
or else 0
。
例如:- 生成的训练样本...
1 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17 :1 18:1 19:1 20:1 21:1 22:1 23:1 24:1 25:1 26:1 27:1 28:1 29:1 30:1
由于这是第一个文档,所有功能都存在。
我使用1
,0
作为类标签。
我正在使用svm.Net进行分类。
我将300
权重向量手动分类为训练数据,生成的模型将所有向量作为支持向量,这肯定是过拟合的。
我的总特征(unique words/row count
在特征向量 DB 表中)是7610
。
可能是什么原因?
由于这个过度拟合,我的项目现在状况很糟糕。它将每一篇可用的文章归类为正面文章。
在LibSVM二进制分类中,类标签有什么限制吗?
我正在使用0
,1
而不是-1
and +1
。那是问题吗?