0

如何计算词性标注中已知词和未知词的准确率?例如对于已知词,是否将正确标记的已知词除以所有已知词?还有其他方法吗?

4

1 回答 1

1

我想你是对的。您需要的只是一个词典来确定给定单词是已知单词还是未知单词。RDRPOSTagger提供了一段代码来计算已知词和未知词的标记精度。查看包computeAccuracies(lexicon, goldCorpus, taggedCorpus)Eval.py模块中的功能Utility

你可能想看看这篇论文,它展示了 3 种 POS 和形态标记器在 13 种语言上的标记结果(已知词和未知词),包括保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语。

于 2015-11-25T00:42:58.477 回答