SVM 新手 - 我有 160 个类别,从几个到多个成员术语和短语不等,用于训练数据。有些类别的短语很少,而其他类别则有数百个。
我有很多主题广泛的文本测试数据。我想我想要一个 MultiClass、oneVsRest SVM、二进制分类器。
1) 1 个类别 SVM 的训练输入是否应该是一组具有 1 个 feature3:1 feature5:1 ... 对于正成员资格的行,其中 feature 是类成员资格列表中的一个术语/短语 - 二进制值是否足够?和 -1 feature1:1 feature2:1 feature4:1 的行...对于 known_terms_of_interest 字典中其他类的所有成员?
2) 测试文档输入是否应该只包括在 known_terms_of_interest 字典中找到的术语?
3)线性正确吗?-C 1 ?还是因为某些 RBF 中的术语很少?
似乎示例以预处理文件而不是原始文本开头;所以我错过了关键的设置放置步骤,因为文档进入了边距等的描述。