machine-learning - 使用 SVM light 进行分类的文件格式

Question

我正在尝试使用 SVM light 构建一个分类器，该分类器将文档分类为两个类之一。我已经对分类器进行了训练和测试，并将模型文件保存到磁盘中。现在我想用这个模型文件对全新的文档进行分类。这应该是什么输入文件格式？它可以是纯文本文件（我认为这行不通）还是只是文本文件中存在的特征的简单列表，没有任何类标签和特征权重（在这种情况下，我必须跟踪训练期间特征向量中的特征）还是其他格式？

score 7 · Accepted Answer

Training and testing files must be of the same format, each instance results in a line of the following form:

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

For example (copy pasta from SVM^light website):

-1 1:0.43 3:0.12 9284:0.2 # abcdef

You can consult the SVM^light website for more information.

score 2 · Accepted Answer

进行预测的文件格式与进行测试和训练的文件格式相同，即

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

但是要进行预测，目标是未知的，因此您必须使用 0 值作为目标。这是唯一的区别。我希望这可以帮助别人

machine-learning - 使用 SVM light 进行分类的文件格式

2 回答 2

Related

Reference