现在我只是在数据集上训练 DynamicLMClassifier 并将我的文本分类。如何添加一个特征,以便分类器赋予某些词更多的权重,例如,如果这句话包含“专业”,它很可能属于 A 类?或者如何根据段落而不是 ngram 进行分类?
我注意到有一个特征提取器,但它似乎没有接受参数。
现在我只是在数据集上训练 DynamicLMClassifier 并将我的文本分类。如何添加一个特征,以便分类器赋予某些词更多的权重,例如,如果这句话包含“专业”,它很可能属于 A 类?或者如何根据段落而不是 ngram 进行分类?
我注意到有一个特征提取器,但它似乎没有接受参数。
我会这样做作为评论,但我还没有特权。
DynamicLMClassifier 不允许使用任意功能。一个是我们的 LogisticRegression 分类器,但它使用起来更复杂。一个很好的起点是教程:
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
您关于如何根据段落而不是 ngram 进行分类的第二个问题有点不清楚。将整个段落用作单个特征可能会创建非常稀疏的数据。
布雷克