3

我正在根据教程做一个检测垃圾邮件帐户的项目。两个标签——“垃圾邮件”和“非垃圾邮件”用于训练和测试。分类已经完成,我要去评估了。

结果是:

*Spam* precision: 0.962917933131
*Spam* recall: 0.6336

*Not spam* precision: 0.72697466468
*Not spam* recall: 0.9756

我已经阅读了准确率和召回率的维基,仍然感到困惑,不知道如何使用它进行测量。

我的目的是减少被标记为“垃圾邮件”的普通帐户的数量。一些“垃圾邮件”帐户可以逃脱并不重要。所以我想知道我应该重点改进上面的哪个结果?谢谢。

4

1 回答 1

7

精度是归类为阳性的结果的分数,这确实是阳性的。

召回率是检测到的所有阳性结果的比例。

我的目的是减少被标记为“垃圾邮件”的普通帐户的数量。

这意味着您希望最大限度地提高Spam的精度和Not spam的召回率。您链接到的 wiki 页面解释了您需要知道的所有内容 - 事实上,您的目的是最大限度地减少“误报”的数量(包括在这两个特征中)。

建议的关键词:混淆矩阵

于 2013-04-17T04:57:45.273 回答