15

我是 R 新手,所以如果这是一个简单的问题,我深表歉意,但是我今晚做了很多搜索,似乎无法弄清楚。我有一个包含大量变量的数据框,我想做的是创建这些变量子集之间的相关性表,基本上相当于 Stata 中的“pwcorr”,或“相关性” SPSS。这样做的一个关键是,我不仅想要 r,而且还想要与该值相关的重要性。

有任何想法吗?这似乎应该很简单,但我似乎想不出一个好方法。

4

4 回答 4

10

Bill Venables 在 R 邮件列表中的这个答案中提供了这个解决方案,我对它做了一些轻微的修改:

cor.prob <- function(X, dfr = nrow(X) - 2) {
  R <- cor(X)
  above <- row(R) < col(R)
  r2 <- R[above]^2
  Fstat <- r2 * dfr / (1 - r2)
  R[above] <- 1 - pf(Fstat, 1, dfr)

  cor.mat <- t(R)
  cor.mat[upper.tri(cor.mat)] <- NA
  cor.mat
}

所以让我们测试一下:

set.seed(123)
data <- matrix(rnorm(100), 20, 5)
cor.prob(data)

          [,1]      [,2]      [,3]      [,4] [,5]
[1,] 1.0000000        NA        NA        NA   NA
[2,] 0.7005361 1.0000000        NA        NA   NA
[3,] 0.5990483 0.6816955 1.0000000        NA   NA
[4,] 0.6098357 0.3287116 0.5325167 1.0000000   NA
[5,] 0.3364028 0.1121927 0.1329906 0.5962835    1

这与cor.test一致吗?

cor.test(data[,2], data[,3])

 Pearson's product-moment correlation
data:  data[, 2] and data[, 3] 
t = 0.4169, df = 18, p-value = 0.6817
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.3603246  0.5178982 
sample estimates:
       cor 
0.09778865 

似乎工作正常。

于 2012-11-21T05:21:21.393 回答
4

这是我刚刚制作的东西,我偶然发现了这篇文章,因为我正在寻找一种方法来获取每一对变量,并获得一个整洁的 nX3 数据框。第 1 列是变量,第 2 列是变量,第 3 列和第 4 列是它们的绝对值和真实相关性。只需将数值和整数值的数据框传递给函数即可。

  pairwiseCor <- function(dataframe){
  pairs <- combn(names(dataframe), 2, simplify=FALSE)
  df <- data.frame(Vairable1=rep(0,length(pairs)), Variable2=rep(0,length(pairs)), 
                   AbsCor=rep(0,length(pairs)), Cor=rep(0,length(pairs)))
  for(i in 1:length(pairs)){
    df[i,1] <- pairs[[i]][1]
    df[i,2] <- pairs[[i]][2]
    df[i,3] <- round(abs(cor(dataframe[,pairs[[i]][1]], dataframe[,pairs[[i]][2]])),4)
    df[i,4] <- round(cor(dataframe[,pairs[[i]][1]], dataframe[,pairs[[i]][2]]),4)
  }
  pairwiseCorDF <- df
  pairwiseCorDF <- pairwiseCorDF[order(pairwiseCorDF$AbsCor, decreasing=TRUE),]
  row.names(pairwiseCorDF) <- 1:length(pairs)
  pairwiseCorDF <<- pairwiseCorDF
  pairwiseCorDF
  }

这就是输出:

 > head(pairwiseCorDF)
             Vairable1        Variable2 AbsCor     Cor
    1        roll_belt     accel_belt_z 0.9920 -0.9920
    2 gyros_dumbbell_x gyros_dumbbell_z 0.9839 -0.9839
    3        roll_belt total_accel_belt 0.9811  0.9811
    4 total_accel_belt     accel_belt_z 0.9752 -0.9752
    5       pitch_belt     accel_belt_x 0.9658 -0.9658
    6 gyros_dumbbell_z  gyros_forearm_z 0.9491  0.9491
于 2014-08-24T04:20:55.340 回答
4

我发现 R 包 picante 可以很好地解决您遇到的问题。您可以轻松地将数据集传递给 cor.table 函数,并获取所有变量的相关性和 p 值表。您可以在函数中指定 Pearson 的 r 或 Spearman。请参阅此链接以获取帮助: http: //www.inside-r.org/packages/cran/picante/docs/cor.table

还记得在运行函数之前从数据集中删除任何非数字列。这是一段示例代码:

install.packages("picante")
library(picante)
#Insert the name of your dataset in the code below
cor.table(dataset, cor.method="pearson")
于 2015-06-22T18:42:03.327 回答
3

您可以使用sjPlot-packagesjt.corr的功能,它为您提供格式精美的相关表,可以在您的 Office 应用程序中使用。

最简单的函数调用就是传递数据框:

sjt.corr(df)

请参阅此处的示例

于 2015-07-02T12:51:11.577 回答