0

我正在尝试使用 SVMLight 构建一个分类器来检测名词短语(NP)是否是照应。我有我的特点,但我一直在理解输入文件的格式,我应该将我的所有文本翻译成这种格式,还是只放代表正面实例和负面实例的 NP。是否有任何软件可以让我将文件翻译成这种格式。

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float>  //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string>  //Should this contain the NP

另外,对于模型文件,这个文件应该包含什么?

您的帮助将不胜感激。

4

1 回答 1

0

引用康奈尔官方文档对 SVMlight 的使用,这里是一个输入格式的例子:

-1 1:0.43 3:0.12 9284:0.2

据我了解,这意味着在具有“特征”的文档中(在您的情况下为 NP),上面的行表示特征 1 的权重为 0.43、第三个特征的权重为 0.12、第 9284 个特征的否定情况具有 0.2 值,所有其他特征具有 0 值。

关于生成这种格式的软件或一些源代码或库 - 这也是我正在寻找的,因此我无法为你回答。但我希望你清楚格式说明。

于 2016-07-20T12:16:16.380 回答