1

我想用 Weka 对句子进行分类。我的特征是句子术语(单词)和每个术语的词性标签。我不知道图形属性如何,因为如果每个术语都作为一个特征呈现,每个实例(句子)的特征数量就会变得不同。并且,如果句子中的所有单词都作为一个特征呈现,那么单词和它们的 POS 标签是如何关联的。

任何想法我应该如何进行?

4

1 回答 1

1

如果我对问题的理解正确,答案如下:最常见的做法是独立于单词在句子中的位置来处理单词,并在特征空间中用每个已知单词在该句子中出现的次数来表示一个句子。即,训练数据中存在的每个单词通常都有一个单独的数字特征。或者,如果您愿意使用 n-gram,则为训练数据中的每个 n-gram 提供一个单独的功能(可能具有一些频率阈值)。

至于 POS 标签,将它们用作单独的特征可能是有意义的,但前提是您感兴趣的分类与句子结构(语法)有关。否则,您可能只想将 POS 标签附加到单词上,这样可以部分消除可以代表不同词性的单词的歧义。

于 2012-09-07T12:22:23.510 回答