我正在使用斯坦福分类器提供的最大熵算法来执行自定义的命名实体识别。输出文件提供 5 列 --> word \t ground-truth \t label \t P(clAnswer) \t P(goldAnswer))
P(clAnswer)和P(goldAnswer)之间的区别是什么?它们是如何计算的?
我正在使用斯坦福分类器提供的最大熵算法来执行自定义的命名实体识别。输出文件提供 5 列 --> word \t ground-truth \t label \t P(clAnswer) \t P(goldAnswer))
P(clAnswer)和P(goldAnswer)之间的区别是什么?它们是如何计算的?
P(clAnswer) 是模型给出猜测的概率。P(goldAnswer) 是模型给出真正黄金答案的概率。
如果您想了解分类器背后的算法,您可以在此链接中找到资源:https ://nlp.stanford.edu/software/classifier.shtml
我应该注意到,使用 CRFClassifier 训练 NER 模型是标准的。这里有关于训练 NER 模型的详尽文档: