1

我目前正在从事一个专注于从维基百科文本语料库中提取关系的项目,我计划使用 SVM 来提取这些关系。为了对此建模,我计划使用以下论文中提到的 Word 特征、POS Tag 特征、Entity 特征、Mention 特征等 - https://gate.ac.uk/sale/eswc06/eswc06-relation.pdf(第 6 页起)

现在,我已经建立了特征提取的管道并对语料库进行了注释,我希望使用像 SVM-Light 这样的包来完成项目。根据 SVM-Light 包的输入文件格式,这是必需的格式 - .=。: : ... : #

示例(来自 SVM-Light 网页)-

在分类模式下,目标值表示示例的类别。+1作为目标值表示正例,-1分别表示负例。所以,例如,这条线

-1 1:0.43 3:0.12 9284:0.2 #abcdef

指定一个负例,其中特征编号 1 的值为 0.43,特征编号 3 的值为 0.12,特征编号 9284 的值为 0.2,所有其他特征的值为 0。此外,字符串 abcdef 与向量一起存储,它可以作为为用户定义的内核提供附加信息的一种方式。

现在,我想知道我们如何将我正在使用的特征(其值包括单词、POS 标签和实体类型和子类型)建模到 SVM-Light 包接受的特征向量中,其中每个特征都有一个与它。从我选择的功能到这些实际值的映射是如何完成的?

如果以前曾解决过类似问题的人能在正确的方向上刺激我,那将是非常有帮助的。

谢谢。

4

0 回答 0