最后我能够训练 mahout 分类器,现在我的问题是如何为我的输入文档获取目标类别。
为我的文本文档获取目标类别的过程是什么?
首先,您必须对文本文档 RandomAccessSparseVector 进行矢量化处理。
一些示例代码供您参考:
Vector vector = new RandomAccessSparseVector(FEATURES);
FeatureExtractor fe = new FeatureExtractor();
HashSet<String> fs = fe.extract(text);
for (String s : fs) {
int index = dictionary.get(s);
vector.setQuick(index, frequency.get(index));
}
然后,使用 Classifier.classify(Vector) 得到结果。