3

我读过词干会损害精度,但会提高文本分类的召回率。这是怎么发生的?当您停止时,您会增加查询和示例文档之间的匹配数,对吗?

4

2 回答 2

12

它总是一样的,如果你提高回忆,你做一个概括。因此,您正在失去精确度。词干将单词合并在一起。

一方面,应该合并在一起的词(例如“adhere”和“adhesion”)在词干后可能保持不同;另一方面,真正不同的词可能会被错误地混为一谈(例如,“实验”和“经验”)。这些分别称为提取不足错误和过度提取错误。

Overstemming 会降低准确率,understemming 会降低召回率。因此,由于根本没有词干意味着没有过度但最大的词干不足错误,因此您的召回率很低,精度很高。

顺便说一句,精度意味着您找到的“文档”中有多少是您正在寻找的。召回意味着您收到了多少正确的“文件”。

于 2012-06-24T12:19:33.937 回答
-1

从 Query_expansion 上的维基百科条目:

通过对用户输入的词进行词干处理,可以匹配更多的文档,因为用户输入的词的替代词形式也被匹配,从而增加了总召回率。这是以降低精度为代价的。通过扩展搜索查询来搜索用户输入术语的同义词,召回率也会以牺牲精度为代价来增加。这是由于计算精度等式的性质,考虑到召回因素是分母的一部分,更大的召回隐含地导致精度下降。还可以推断,更大的召回会对整体搜索结果质量产生负面影响,因为许多用户不希望梳理更多结果,而不管精度如何。

于 2012-04-29T03:38:19.637 回答