0

SVM 新手 - 我有 160 个类别,从几个到多个成员术语和短语不等,用于训练数据。有些类别的短语很少,而其他类别则有数百个。

我有很多主题广泛的文本测试数据。我想我想要一个 MultiClass、oneVsRest SVM、二进制分类器。

1) 1 个类别 SVM 的训练输入是否应该是一组具有 1 个 feature3:1 feature5:1 ... 对于成员资格的行,其中 feature 是类成员资格列表中的一个术语/短语 - 二进制值是否足够?和 -1 feature1:1 feature2:1 feature4:1 的行...对于 known_terms_of_interest 字典中其他类的所有成员?

2) 测试文档输入是否应该只包括在 known_terms_of_interest 字典中找到的术语?

3)线性正确吗?-C 1 ?还是因为某些 RBF 中的术语很少?

似乎示例以预处理文件而不是原始文本开头;所以我错过了关键的设置放置步骤,因为文档进入了边距等的描述。

4

1 回答 1

0

1) 1 个类别 SVM 的训练输入是否应该是一组具有 1 个特征 3:1 特征 5:1 的行...对于正成员,其中特征是类成员列表中的一个术语/短语 - 二进制值是否足够?和 -1 feature1:1 feature2:1 feature4:1 的行...对于 known_terms_of_interest 字典中其他类的所有成员?

如果您的“featureX”是一个自然数(您的单词/短语的索引),那么您刚刚描述了一组有效的单词表示。它是文本分类的最基本方法,但它应该有效(从某种意义上说——它是正确的)

2) 测试文档输入是否应该只包括在 known_terms_of_interest 字典中找到的术语?

它们必须仅包含在训练阶段看到的单词/短语的特征(如前所述 - 作为索引)。如果您为其提供以前从未见过的功能,libsvm 将无法运行。

3)线性正确吗?-C 1 ?还是因为某些 RBF 中的术语很少?

这样的问题没有答案,必须使用一些泛化测试技术(如交叉验证)来拟合内核类型和 C 值(以及 RBF 情况下的 gamma)。

于 2014-02-01T23:22:09.127 回答