2

我最近一直在学习使用 R RecordLinkage 包。在链接 2 个数据集的一个非常小的示例中,一个有 8 行,另一个有 11 行,我得到了结果:

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

无法理解的是 alpha 误差、beta 误差和分类表的准确性之间的关系。下面的数字究竟来自哪里,它们是如何计算的:

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

非常感谢任何帮助

4

1 回答 1

4

Alpha 和 Beta 误差是统计量度,通常分别称为 I 型和 II 型误差。在统计术语中,alpha 误差是在假设为真的情况下拒绝原假设的概率;贝塔误差是在假设不正确的情况下断言零假设的概率(比较,例如http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/)。

在记录链接的情况下,零假设是记录对是匹配的,即两条记录表示相同的实体。因此,alpha 误差是将一对标记为不匹配的概率,因为它确实是匹配的(假阴性)。此错误计算为:(归类为“非链接”的匹配数)/(匹配数)。 [1] 在上面的示例中,有 4 个匹配项,其中 1 个无法识别,因此 alpha 误差为 1 / 4 = 0.25。

类似地,beta 误差是将一对分类为匹配的概率,因为它实际上是不匹配的(误报)。它被计算为(归类为“链接”的非匹配数)/(非匹配数)。在上面的例子中,没有误报分类,所以 beta 误差为 0。我们假设一个不同的分类表:

           classification
true status N P L
      FALSE 2 0 2
      TRUE  1 0 3

在这种情况下,有 4 个不匹配,其中 2 个被错误分类为链接,因此 beta 误差为 2 / 4 = 0.5。

最后,准确率只是所有对中正确分类的比例(参见https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics)。在问题的分类表中,有 7 个正确分类(4 个不匹配,3 个匹配),因此准确率为 7 / 8 = 0,875。

[1] 当我的意思是分类算法的结果与真实状态形成对比时,我使用“(非)链接”而不是“(非)匹配”。

于 2016-07-14T08:34:33.913 回答