0

现在我只是在数据集上训练 DynamicLMClassifier 并将我的文本分类。如何添加一个特征,以便分类器赋予某些词更多的权重,例如,如果这句话包含“专业”,它很可能属于 A 类?或者如何根据段落而不是 ngram 进行分类?

我注意到有一个特征提取器,但它似乎没有接受参数。

4

1 回答 1

0

我会这样做作为评论,但我还没有特权。

DynamicLMClassifier 不允许使用任意功能。一个是我们的 LogisticRegression 分类器,但它使用起来更复杂。一个很好的起点是教程:

http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html

您关于如何根据段落而不是 ngram 进行分类的第二个问题有点不清楚。将整个段落用作单个特征可能会创建非常稀疏的数据。

布雷克

于 2014-12-11T21:56:39.407 回答