java - 从斯坦福分类器输出置信度分数的方法？

Question

我目前正在研究斯坦福分类器（2013 年 4 月 4 日发布的 2.1.8 版），并为一个内部研究项目编写了一个 java 包装器。基于 ClassifierDemo.java（带有 Classifier zip 文件），我能够调用我的序列化训练模型和属性文件来一次处理一个字符串。请注意，斯坦福分类器只能处理文件，一旦输入字符串被读取然后保存在临时文件中，分类器就会开始处理它。方法trainedClassifier.classOf 能够使用训练模型（myClassifier.ser.gz）输出给定字符串的类。但是，我找不到输出置信度分数的方法（参见： http: //nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/classify/ColumnDataClassifier.html）。

一个期望的输出是 stringCategory: Dummy Confidence Score:0.85

以下是我在包装器中使用的 Java 类/方法：

         //.....
         LinearClassifier<String, String> trainedClassifier = 
         IOUtils.readObjectFromFile("myClassifier.ser.gz");

         //Have to call *.prop every time
         ColumnDataClassifier myProp = 
           new ColumnDataClassifier("myClassifierProp.prop");

         //Specify the temporary one sentence file saved in class-tmp.txt
         for (String line : ObjectBank.getLineIterator("class-tmp.txt")) 
               { Datum<String,String> classType = myProp.makeDatumFromLine(line, 0); 
                 classOutput = trainedClassifier.classOf(classType);

                 System.out.println("stringCategory: "+ classOutput + "/n");
                  //end of for
                  //.....

score 1 · Accepted Answer

您可以使用Counter<L> scoresOf(Datum<L,F> example);分类器界面中的方法（使用分类器的标签构造一个计数器并为每个类的分数（非标准化对数概率）赋值。）来获得分数。你可以像这样使用它：trainedClassifier.scoresOf(classType). Counter<String>在这种特殊情况下，这将返回 a 。要查找输出类的分数，可以使用以下代码：

score = Double.toString(trainedClassifier.scoresOf(classType).getCount(classOutput));
System.out.println("Confidence score: " + score);

我做了一个项目，就像我上面做的那样。你也可以试试这个方法：

score = trainedClassifier.scoreOf(classType, classOutput);

我认为这也将完成这项工作。

更多细节：斯坦福线性分类器文档，斯坦福线性分类器实现

java - 从斯坦福分类器输出置信度分数的方法？

1 回答 1

Related

Reference