2

我正在使用 NLTK 包中的基本标记器。我之前使用的是 OpenNLP 的标记系统。我正在切换,因为 NLTK 有更多我可以在以后在我的项目中使用的预构建模块。但是我现在缺少的一件事是标记器给出的“信心”值。

最初使用 OpenNLP 设置时,我得到了一个数值(范围从 0 到 1),它告诉我标注器对其决定的信心程度(0 表示完全没有信心,1 表示完全有信心)。我想知道是否有人知道 NLTK 标记系统中可以类似工作的任何值。它不必是相同的系统,但我希望某种数字排名可以让我轻松查看给定标签是否是我应该仔细检查的东西。

我在 NLTK 中确实拥有的一件事类似于 Confidence Value。是标注器的总体准确度评级,但仅提供预先标记的来源,并且适用于整个文档,而不是基于单词的。

我的想法是,也许有一些统计确定为单词选择了哪个标签,如果我能得到它可能可以用作类似的度量,但我找不到任何类似的东西。

谢谢!

4

1 回答 1

3

NLTK 标注器不为每个标记提供直接的置信度值,但朴素贝叶斯标注器允许传递一个截止概率:

tagger = ClassifierBasedPOSTagger(train=training_sentences, cutoff_prob=0.95)

如果 POS 标签的置信度低于 95%,则标注器将返回 None。我发现 0.95 是准确率和召回率之间的一个很好的权衡(当然这取决于您的应用程序的需求)。

于 2013-01-08T09:55:43.563 回答