r - R RecordLinkage 包，了解 alpha 和 beta 错误

Question

我最近一直在学习使用 R RecordLinkage 包。在链接 2 个数据集的一个非常小的示例中，一个有 8 行，另一个有 11 行，我得到了结果：

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

无法理解的是 alpha 误差、beta 误差和分类表的准确性之间的关系。下面的数字究竟来自哪里，它们是如何计算的：

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

非常感谢任何帮助

score 4 · Accepted Answer

Alpha 和 Beta 误差是统计量度，通常分别称为 I 型和 II 型误差。在统计术语中，alpha 误差是在假设为真的情况下拒绝原假设的概率；贝塔误差是在假设不正确的情况下断言零假设的概率（比较，例如http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/）。

在记录链接的情况下，零假设是记录对是匹配的，即两条记录表示相同的实体。因此，alpha 误差是将一对标记为不匹配的概率，因为它确实是匹配的（假阴性）。此错误计算为：（归类为“非链接”的匹配数）/（匹配数）。 [1] 在上面的示例中，有 4 个匹配项，其中 1 个无法识别，因此 alpha 误差为 1 / 4 = 0.25。

类似地，beta 误差是将一对分类为匹配的概率，因为它实际上是不匹配的（误报）。它被计算为（归类为“链接”的非匹配数）/（非匹配数）。在上面的例子中，没有误报分类，所以 beta 误差为 0。我们假设一个不同的分类表：

           classification
true status N P L
      FALSE 2 0 2
      TRUE  1 0 3

在这种情况下，有 4 个不匹配，其中 2 个被错误分类为链接，因此 beta 误差为 2 / 4 = 0.5。

最后，准确率只是所有对中正确分类的比例（参见https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics）。在问题的分类表中，有 7 个正确分类（4 个不匹配，3 个匹配），因此准确率为 7 / 8 = 0,875。

[1] 当我的意思是分类算法的结果与真实状态形成对比时，我使用“（非）链接”而不是“（非）匹配”。

r - R RecordLinkage 包，了解 alpha 和 beta 错误

1 回答 1

Related

Reference