0

我正在使用 libsvm 来预测情绪。假设我使用字数统计,我想知道输入必须采用什么格式。

     [label] [index]:[value] [index]:[value]

这是 libsvm 所需的格式。那么这是否意味着我只有两个标签(一个用于正面,一个用于负面),索引将是该标签下的每个单词,值将是每个单词的频率?

这是否也意味着我需要存储单词到索引的映射以在我的测试集中使用?

4

2 回答 2

2

LIBSVM 使用所谓的“稀疏”格式,其中不需要存储零值。因此属性为
5 0 2 0的数据
表示为
1:5 3:2
因此,您只需要指定索引非零属性的

标签位于第一列。对于二进制情况,您可以将 +1 用于正样本,将 -1 用于负样本。顺便说一句,您不仅限于 2 个标签。您可以使用其他数字(例如 1,2,3,4,5,...)

于 2012-01-28T20:22:34.013 回答
0

请查看 libsvm 中给出的示例文件。它被称为heart_scale。遵循那个......这是一个很好的例子......

于 2012-01-28T17:04:37.630 回答