我经常需要对数据框/矩阵中的每一对列应用一个函数,并在矩阵中返回结果。现在我总是写一个循环来做到这一点。例如,要制作一个包含相关性 p 值的矩阵,我会写:
df <- data.frame(x=rnorm(100),y=rnorm(100),z=rnorm(100))
n <- ncol(df)
foo <- matrix(0,n,n)
for ( i in 1:n)
{
for (j in i:n)
{
foo[i,j] <- cor.test(df[,i],df[,j])$p.value
}
}
foo[lower.tri(foo)] <- t(foo)[lower.tri(foo)]
foo
[,1] [,2] [,3]
[1,] 0.0000000 0.7215071 0.5651266
[2,] 0.7215071 0.0000000 0.9019746
[3,] 0.5651266 0.9019746 0.0000000
这有效,但对于非常大的矩阵来说非常慢。我可以在 R 中为此编写一个函数(通过假设如上所述的对称结果而不必将时间减半):
Papply <- function(x,fun)
{
n <- ncol(x)
foo <- matrix(0,n,n)
for ( i in 1:n)
{
for (j in 1:n)
{
foo[i,j] <- fun(x[,i],x[,j])
}
}
return(foo)
}
或者带有 Rcpp 的函数:
library("Rcpp")
library("inline")
src <-
'
NumericMatrix x(xR);
Function f(fun);
NumericMatrix y(x.ncol(),x.ncol());
for (int i = 0; i < x.ncol(); i++)
{
for (int j = 0; j < x.ncol(); j++)
{
y(i,j) = as<double>(f(wrap(x(_,i)),wrap(x(_,j))));
}
}
return wrap(y);
'
Papply2 <- cxxfunction(signature(xR="numeric",fun="function"),src,plugin="Rcpp")
但即使在一个包含 100 个变量的非常小的数据集上,两者都相当慢(我认为 Rcpp 函数会更快,但我猜 R 和 C++ 之间的转换一直都会造成损失):
> system.time(Papply(matrix(rnorm(100*300),300,100),function(x,y)cor.test(x,y)$p.value))
user system elapsed
3.73 0.00 3.73
> system.time(Papply2(matrix(rnorm(100*300),300,100),function(x,y)cor.test(x,y)$p.value))
user system elapsed
3.71 0.02 3.75
所以我的问题是:
- 由于这些函数的简单性,我假设这已经在 R 中的某个地方。是否有
plyr
执行此操作的应用程序或函数?我已经找过了,但一直没能找到。 - 如果是这样,它会更快吗?