input - SVMLight：如何构建分类器？

Question

我正在尝试使用 SVMLight 构建一个分类器来检测名词短语（NP）是否是照应。我有我的特点，但我一直在理解输入文件的格式，我应该将我的所有文本翻译成这种格式，还是只放代表正面实例和负面实例的 NP。是否有任何软件可以让我将文件翻译成这种格式。

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float>  //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string>  //Should this contain the NP

另外，对于模型文件，这个文件应该包含什么？

您的帮助将不胜感激。

score 0 · Accepted Answer

引用康奈尔官方文档对 SVMlight 的使用，这里是一个输入格式的例子：

-1 1:0.43 3:0.12 9284:0.2

据我了解，这意味着在具有“特征”的文档中（在您的情况下为 NP），上面的行表示特征 1 的权重为 0.43、第三个特征的权重为 0.12、第 9284 个特征的否定情况具有 0.2 值，所有其他特征具有 0 值。

关于生成这种格式的软件或一些源代码或库 - 这也是我正在寻找的，因此我无法为你回答。但我希望你清楚格式说明。

input - SVMLight：如何构建分类器？

1 回答 1

Related

Reference