r - 计算包含缺失值的相关系数

Question

我希望在 R （或任何常见的统计数据包）中计算某种形式的相关系数，其中相关值受缺失值的影响。我不确定这是否可行并且正在寻找一种方法。我不想估算数据，但实际上希望根据以某种系统方式包含的不完整案例的数量来减少相关性。数据是由不同个体生成的一系列时间点，相关系数用于计算可靠性。在许多情况下，一个人的数据将包含比另一个人多几个时间点...

同样，不确定是否有任何标准程序来处理这种情况。

score 3 · Accepted Answer

要看的一件事是对是否缺少点进行逻辑回归拟合。如果没有关系，则支持假设缺失值不会提供任何信息。如果这是您的情况，那么您将不必估算任何内容，并且可以在没有缺失值的情况下执行您的计算。glm在 R 中可用于逻辑回归。

另外，请参阅可能适用于您或可能不适用于您的use="pairwise.complete.obs"论点。cor

编辑：我根据重新阅读问题修改了这个答案。

score 2 · Accepted Answer

我的感觉是，当有一个数据对具有显示 NA 的时间序列之一时，该对不能用于计算相关性，因为此时没有信息。由于没有关于这一点的信息，因此无法知道它将如何影响相关性。指定 NA 降低相关性似乎很棘手，如果在某个点上存在观察结果，这同样可以很容易地改善相关性。

如果存在 NA，R 中的默认行为是为相关性返回 NA。可以使用 'use' 参数调整此行为。有关更多详细信息，请参阅该函数的文档。

score 1 · Accepted Answer

正如 Paul Hiemstra 在回答中指出的那样，如果没有缺失值，则无法知道相关性是更高还是更低。但是，对于某些应用程序，可能适合对不匹配缺失值的观察到的相关性进行惩罚。例如，如果我们比较两个单独的编码器，当且仅当编码器 A 也说“NA”时，我们可能希望编码器 B 说“NA”，而且我们希望它们的非 NA 值相关。

在这些假设下，惩罚不匹配缺失值的一种简单方法是计算完整案例的相关性，并乘以根据其 NA 状态匹配的观测值的比例。惩罚项可以定义为：1 - mean((is.na(coderA) & !is.na(coderB)) | (!is.na(coderA) & is.na(coderB)))。下面是一个简单的说明。

fun = function(x1, x2, idx_rm) {
  temp = x2
  # remove 'idx_rm' points from x2
  temp[idx_rm] = NA

  # calculate correlations
  r_full = round(cor(x1, x2, use = 'pairwise.complete.obs'), 2)
  r_NA = round(cor(x1, temp, use = 'pairwise.complete.obs'), 2)
  penalty = 1 - mean((is.na(temp) & !is.na(x1)) |
                       (!is.na(temp) & is.na(x1)))
  r_pen = round(r_NA * penalty, 2)

  # plot
  plot(x1, temp, main = paste('r_full =', r_full, 
                              '; r_NA =', r_NA,
                              '; r_pen =', r_pen),
       xlim = c(-4, 4), ylim = c(-4, 4), ylab = 'x2')
  points(x1[idx_rm], x2[idx_rm], col = 'red', pch = 16)

  regr_full = as.numeric(summary(lm(x2 ~ x1))$coef[, 1])
  regr_NA = as.numeric(summary(lm(temp ~ x1))$coef[, 1])
  abline(regr_full[1], regr_full[2])
  abline(regr_NA[1], regr_NA[2], lty = 2)
}

运行一个简单的模拟来说明缺失值和惩罚的可能影响：

set.seed(928)
x1 = rnorm(20)
x2 = x1 * rnorm(20, mean = 1, sd = .8)
# A case when NA's artifically inflate the correlation, 
# so penalization makes sense:
myfun(x1, x2, idx_rm = c(13, 19))

# A case when NA's DEflate the correlation, 
# so penalization may be misleading:
myfun(x1, x2, idx_rm = c(6, 14))

# When there are a lot of NA's, penalization is much stronger
myfun(x1, x2, idx_rm = 7:20)

# Some NA's in x1:
x1[1:5] = NA
myfun(x1, x2, idx_rm = c(6, 14))

r - 计算包含缺失值的相关系数

3 回答 3

Related

Reference