8

我正在尝试使用 SVM light 构建一个分类器,该分类器将文档分类为两个类之一。我已经对分类器进行了训练和测试,并将模型文件保存到磁盘中。现在我想用这个模型文件对全新的文档进行分类。这应该是什么输入文件格式?它可以是纯文本文件(我认为这行不通)还是只是文本文件中存在的特征的简单列表,没有任何类标签和特征权重(在这种情况下,我必须跟踪训练期间特征向量中的特征)还是其他格式?

4

2 回答 2

7

Training and testing files must be of the same format, each instance results in a line of the following form:

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

For example (copy pasta from SVM^light website):

-1 1:0.43 3:0.12 9284:0.2 # abcdef

You can consult the SVM^light website for more information.

于 2013-08-20T17:25:53.027 回答
2

进行预测的文件格式与进行测试和训练的文件格式相同,即

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

但是要进行预测,目标是未知的,因此您必须使用 0 值作为目标。这是唯一的区别。我希望这可以帮助别人

于 2017-05-27T19:42:22.623 回答