stanford-nlp - 斯坦福 CRFClassifier 性能评估输出

Question

我正在关注这个常见问题解答https://nlp.stanford.edu/software/crf-faq.shtml来训练我自己的分类器，我注意到性能评估输出与结果不匹配（或者至少不以我的方式预计）。特别是本节

CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second. Entity P R F1 TP FP FN MYLABEL 1.0000 0.9961 0.9980 255 0 1 Totals 1.0000 0.9961 0.9980 255 0 1

我希望TP是预测标签与黄金标签匹配的FP所有实例，MYLABEL是预测但黄金标签是的O所有实例，是预测但黄金标签是FN的所有实例。OMYLABEL

如果我自己根据程序的输出计算这些数字，我会得到完全不同的数字，与程序打印的内容无关。我已经用各种测试文件试过了。我在用着Stanford NER - v3.7.0 - 2016-10-31

我错过了什么吗？

score 1 · Accepted Answer

F1 分数超过实体而不是标签。

例子：

(Joe, PERSON) (Smith, PERSON) (went, O) (to, O) (Hawaii, LOCATION) (., O).

在此示例中，有两个可能的实体：

Joe Smith   PERSON
Hawaii      LOCATION

通过获取具有相同标签的所有相邻标记来创建实体。（除非您使用更复杂的 BIO 标记方案；BIO 方案具有 I-PERSON 和 B-PERSON 之类的标签来指示令牌是否是实体的开头等...）。

stanford-nlp - 斯坦福 CRFClassifier 性能评估输出

1 回答 1

Related

Reference