我正在关注这个常见问题解答https://nlp.stanford.edu/software/crf-faq.shtml来训练我自己的分类器,我注意到性能评估输出与结果不匹配(或者至少不以我的方式预计)。特别是本节
CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second.
Entity P R F1 TP FP FN
MYLABEL 1.0000 0.9961 0.9980 255 0 1
Totals 1.0000 0.9961 0.9980 255 0 1
我希望TP
是预测标签与黄金标签匹配的FP
所有实例,MYLABEL
是预测但黄金标签是 的O
所有实例,是预测但黄金标签是FN
的所有实例。O
MYLABEL
如果我自己根据程序的输出计算这些数字,我会得到完全不同的数字,与程序打印的内容无关。我已经用各种测试文件试过了。我在用着Stanford NER - v3.7.0 - 2016-10-31
我错过了什么吗?