5

我有使用斯坦福词性标注器获得的词性标注句子。例如:

/DT岛/NN是/VBD很/RB美/JJ./。I/PRP爱/VBP吧/PRP./.

(xml格式也可以)

任何人都可以解释如何从这个 POS 标签句子中执行特征选择,并使用机器学习方法将它们转换为用于文本分类的特征向量。

4

1 回答 1

4

一个简单的开始方法如下所示(假设词序对您的分类算法并不重要)。

首先,您将手动对许多句子进行分类。这是您的训练数据集。通常,您从每个类别中手动分类的句子越多,您获得的准确度就越高。对于这样的监督方法,请记住,唯一选择的特征将来自您手动分类的句子。您的特征是所有训练句子中单词/POS 的每个独特组合。

最后,您必须选择一个特征选择算法。那里有很多,但一个流行的是卡方。其他一些是信息增益、互信息等。使用卡方,您可以单独测量类变量对每个特征的依赖性。您将选择一些阈值,例如具有最低卡方值的前 10% 的特征,并且只保留这些特征以供以后在分类器中使用。

特征选择算法的选择很重要,需要反映你正在使用的算法。例如,当您想要找到与您的类别正相关和负相关的特征时,卡方是很好的。在其他情况下,您可能只需要正相关特征,因此您需要选择另一种算法或修改现有算法。

希望有帮助,威廉·莱利-兰德

于 2011-08-04T19:41:44.730 回答