0

我正在libSVM使用Python.

我感觉到了这个问题。

在使用无序索引训练数据时,我得到了意想不到的结果。

例如,一些未分类的文章的操作集的结果都是相同的,例如:

[1, 1, 1, 1, 1, ..., 1]

这是训练数据的一部分。

4 133:1 25806:1 85:1 107:1 25806:1 12337:1 136:1 16943:1 15259:1 34:1 2019:1 173:1 1070:1 71:1 357:1 5518:1 178 :1 179:1 5:1 12337:1 120:1 39912:1 120:1 2019:1 173:1 1070:1 71:1 357:1 5518:1 178:1 179:1 5:1 12337:1 6409:1 87:1 189:1 6410:1 133:1 25806:1 85:1 107:1 25806:1 12337:1 136:1 16943:1 15259:1 34:1 2019:1 173:1 1070: 1 71:1 357:1 5518:1 178:1 179:1 5:1 12337:1 120:1 39912:1 1771:1 9:1 10:1 11:1 43188:1 27:1 6707:1 173 :1 15:1 883:1 29:1 67:1 698:1 58:1 25806:1 5462:1 5511:1 34:1 16943:1 15259:1 224:1 128:1 167:1 312:1 1062:1 4140:1 184:1 71:1 357:1 193:1 907:1 167:1 698:1 564:1 11:1 1149:1 34:1 30261:1 10899:1 217:1 860: 1 58:1 276:1 5:1 6088:1 398:1 177:1 178:1 179:1 5:1 25806:1 29:1 181:1 84:1 12337:1 84:1 58:1 665 :1 357:1 897:1 650:1 178:1 4:1 5:1 1195:1 29:1 80:1 17:1 186:1 10:1 11:1 7495:1 167:1 22073:1 5:1 230:1 29:1 179:1 51:1 1874:1 167:1 22073:1 5:1 230:1 17:1 179:1 80:1 867:1 15:1 324:1 185:1 350:1 2914:1 5:1 84:1 39912:1

根据以上数据,您可以理解索引没有排序。

我认为这是问题所在。这个案子还有其他原因吗?

PS。train meta(y) 已分发:

1 1:1 2:1 3:1 4:1 5:1 2:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16 :1 17:1 18:1 19:1 20:1 21:1 22:1 11:1 1:1 2:1 23:1 24:1 25:1 26:1 27:1 28:1 29:1 30:1 31:1 32:1 8:1 15:1 33:1 17:1 21:1 22:1 34:1 35:1 17:1 36:1 10:1 11:1 37:1 33: 1 38:1 39:1 40:1 41:1 42:1 43:1 44:1 45:1 46:1 47:1 32:1 48:1 49:1 50:1 15:1 16:1 45 :1 51:1 52:1
2 309:1 310:1 217:1 968:1 4092:1 5:1 13544:1 32:1 13545:1 13546:1 13544:1 1064:1 13547:1 7287: 1 2225:1 13548:1 2819:1 71:1 1269:1 132:1 13549:1 419:1 4698:1 87:1 6013:1 27:1 294:1 9:1 10:1 11:1 324 :1 58:1 309:1 310:1 62:1 5459:1 350:1 1460:1 15:1 6026:1 5:1 13544:1 1949:1 185:1 186:1 10:1 32:1 439:1 139:1
..
..

谢谢!

4

1 回答 1

0

Theoretically there should not be an issue if the feature elements are not ordered as long as they are labeled correctly, however one must go through the libsvm code to be sure about this behavior (nothing in the documentation prohibits that).

In your case nonetheless, the problem may be class labeling. In a binary classification, the training data should have the following form:

0 1:xx 4:xx 3:xx ...
0 1:xx 2:xx 9:xx ...
1 1:xx 5:xx 13:xx ...
1 2:xx 3:xx 6:xx ...

with the first number being the class label. You need more or less equal number of feature sets for each class to get the best result.

于 2013-04-26T13:22:00.167 回答