我在任何地方都没有找到这个问题的答案,所以我希望这里的人可以帮助我以及其他有同样问题的人。
假设我有1000 个正样本和1500 个负样本。
现在,假设有950 个 True Positives(正样本被正确归类为正样本)和100 个 False Positives(负样本被错误归类为正样本)。
我应该使用这些原始数字来计算Precision,还是应该考虑不同的组大小?
换句话说,我的精度应该是:
TruePositive / (TruePositive + FalsePositive) = 950 / (950 + 100) = 90.476%
或者应该是:
(TruePositive / 1000) / [(TruePositive / 1000) + (FalsePositive / 1500)] = 0.95 / (0.95 + 0.067) = 93.44%
在第一次计算中,我不考虑每组的样本数量,而在第二次计算中,我使用每个度量与其对应组的比例,以消除由于组的不同而导致的偏差尺寸