3

我正在研究如何为我的论文从文档中提取关键词。

在我的研究中,我使用朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型。其中一个功能是PoS tag,我认为这个功能对于指定一个术语是否是关键短语很重要。

但是朴素贝叶斯(NB)分类器的输入是数字,PoS 标签是一个字符串。

所以我不知道如何将 PoS 标签特征表示为一个数字,以便成为 NB 分类器的输入特征

请帮我给你的建议。

谢谢和问候, Hien Su

4

1 回答 1

2

您可以将 POS 标签视为一个单词。然后您可以使用 POS unigram、bigram 或 trigram 作为特征。

例子:

他们/PRP 拒绝/VBP 到/TO 许可/VB 我们/PRB 到/TO 获得/VB/DT 拒绝/NN 许可/NN。

如果您将 POS trigram 作为特征。您可以构建具有以下特征的向量。

Feature          Value
(PRP,VBP,TO)      1
(VBP,TO,VB)       1 
(TO,VB,PRB)       1

等等。

您还可以将 tf-idf 值用于 POS 功能。

于 2015-07-03T02:38:22.410 回答