r - Use R to calculate cohen's Kappa for a categorical rating but within a range of tolerance?

Question

I have a series of ratings (categorical with at least 12 levels) from 2 independent raters. I would like to calculate inter-rater reliability, but allowing for a difference of one level. I.e. Level 1 and level 2 would be considered agreement, but level 1 and level 3 would not. I don't want to use a measure like a correlation coefficient, because it's important to know if the ratings are within 1 level of difference or not. Can this be done?

edit to include sample data: each cell represents the number of raters (max=2) assigning a rating of A-E

structure(list(A = c(2, 2, 0, 0, 0,0,0,0,0), B = c(0,0,0,0,1,0,1,0,2), C = c(0,0,0,0,1,0,0,2,0), D=c(0,0,2,0,0,2,1,0,0), E=c(0,0,0,2,0,0,0,0,0)),row.names = c(NA,9L), class = "data.frame")

score 6 · Accepted Answer

好的，我不确定这是否适合你，但我认为它会达到目标。基本上，您需要在不同的协议标准下找到评估者之间的协议。这真的没什么大不了的。基本上，就 Cohen 的 kappa 而言，评估者要么同意，要么不同意。

从制作样本数据开始：

testdata <- structure(list(A=c(2,2,0,0,0,0,0,0,0),
                           B=c(0,0,0,0,1,0,1,0,2),
                           C=c(0,0,0,0,1,0,0,2,0),
                           D=c(0,0,2,0,0,2,1,0,0),
                           E=c(0,0,0,2,0,0,0,0,0)),
            row.names = c(NA,9L),
            class = "data.frame")

对于 kappa 的计算，我们将使用irr包：

library(irr)

中的kappa2函数irr采用 2*n 数据框或矩阵并返回计算结果。您的数据格式不同，因此我们需要将其转换为kappa2可以处理的格式。如果你已经有了这种格式，它会容易得多。

首先，我首先创建一个新的数据框来接收重组后的结果。

new_testdata <- data.frame(R1="",R2="",stringsAsFactors=FALSE)

现在，一个简单的循环转到每一行并返回一个向量，其中包含每个评分者的评分。显然，这不是分配的实际评级。此处的代码只是假设第一个评分者的评分总是高于第二个评分者。在这种特殊情况下无关紧要，因为我们只关心协议，但我希望您拥有完整的数据。

for(x in 1:dim(testdata)[1]) {
    new_testdata <- rbind(new_testdata,rep(names(testdata),testdata[x,]))
}
rm(x)
new_testdata <- new_testdata[-1,] # Drop first, empty column

现在，我们可以获得正则 kappa。

kappa2(ratings=new_testdata)

  Cohen's Kappa for 2 Raters (Weights: unweighted)

  Subjects = 9
  Raters = 2
  Kappa = 0.723

  z = 4.56
  p-value = 5.23e-06

现在，您想要一个不同的 kappa，其中一个级别的分歧不会被计入问题。那没问题; 基本上，您需要做的是将其中的内容转换new_testdata为同意或不同意的二进制表示。在这种情况下，它不应该影响 kappa。（但是，如果您的评估者只有两个级别可供选择，则会影响 kappa；这将人为地限制该值）。

首先，让我们创建一个将字母转换为数字的表格。这将使我们的生活更轻松。

convtable <- data.frame(old=c("A","B","C","D","E"),
                        new=c(1,2,3,4,5),
                        stringsAsFactors=FALSE)

现在，我们可以使用它将 new_testdata 中的值转换为数字表示。

new_testdata$R1 <- convtable$new[match(new_testdata$R1,convtable$old)]
new_testdata$R2 <- convtable$new[match(new_testdata$R2,convtable$old)]

我们可以通过仅取两列之间的差异来轻松检查是否一致。

new_testdata$diff <- abs(new_testdata$R1-new_testdata$R2)

然后，只需将 R1 和 R2 重新编码为 1 和 1 用于满足您的协议标准（小于或等于两个评级之间的差异级别）的地方，否则为 1 和 0（或 0 和 1）。

new_testdata[new_testdata$diff<=1,c("R1","R2")] <- c(1,1)
new_testdata[new_testdata$diff>1,c("R1","R2")] <- c(1,0)
new_testdata <- new_testdata[1:2]              # Drop the difference variable

现在，再次运行您的 kappa。

kappa2(ratings=new_testdata)

  Cohen's Kappa for 2 Raters (Weights: unweighted)

  Subjects = 9
  Raters = 2
  Kappa = 0

  z = NaN
  p-value = NaN

哇，怎么了？嗯，你给我的数据在使用 +/- 1 水平时基本上是完全一致的。对二元响应变量执行 kappa 时可能会出现一些方法问题，如我链接的 CrossValidated 帖子所示。如果您的数据不如样本数据“均匀”，那么您应该得到一个真正的 kappa 值，而不是像那个那样的异常零。但是，这更像是一个方法问题，您可能需要在 CrossValidated 上进行后续跟进。

r - Use R to calculate cohen's Kappa for a categorical rating but within a range of tolerance?

1 回答 1

Related

Reference