1

我编写了自己的名为 batcheffect 的函数来重新计算数据框中的所有值。该函数只需要数据框作为导入。首先,在函数中计算平均值,然后对数据框中的每个点进行计算并创建一个新的数据框。

batcheffect <- function (experiment){    
   corr<-list()    
   matrixexp<-as.matrix(experiment)    
   expmean <-mean(matrixexp)

   for (i in 1:length(matrixexp)){    
      correction <- (matrixexp[i]-overallmean - expmean)+overallmean    
      corr[[i]]<- matrix(correction)
   }
   return(unlist(corr)) 
}

对于大型数据帧,函数内的循环很慢。所以我想使用 sapply 或 lapply 函数来加速这个过程。有人建议吗?

谢谢

更新:例如我有一个像这样的数据框 df<- data.frame(A=1:10,B=10:1,C=11:20,C1=21:30,B1=31:40,A2=41 :50)

计算数据框中所有值的平均值。数据帧被转换为矩阵 df1<-as.matrix(df)overallmean<-mean(df1)

数据的第一个目标是按列名制作子集。您生成三个组,A 组,B 组和 C 组。子集由以下代码定义:

"selectexperiments" <- function (partialname, data) 
{
result <- data[,grep(partialname, colnames(data))]
return(result)
}
A<-selectexperiments('A', df)
B<-selectexperiments('B', df)
C<-selectexperiments('C', df)

创建了三个组。对于 eggroup 中的每个值,AI 想要计算以下总和:(值 - 总体均值 - 组均值)+ 总体均值。因此我创建了这个批处理效果函数。

"batcheffect" <- function (group)
{
corr<-list()
matrixexp<-as.matrix(group)
expmean <-mean(matrixexp) #mean of the group
for (i in 1:length(matrixexp)){ 
correction <- (matrixexp[i]-overallmean - expmean)+overallmean
corr[[i]]<- matrix(correction)
}
return(unlist(corr))
}

Abatch<-batcheffect(A)

结果现在可以了,但是我会将结果作为数据框返回。对于我自己的数据,这个功能真的很慢,所以我认为可能有一种加速方法,比如 sapply 的东西。

4

1 回答 1

1

你的功能很奇怪。它可以简化为:

batcheffect <- function (experiment){
    matrixexp<-as.matrix(experiment)
    expmean <-mean(matrixexp)
    c(matrixexp - expmean)
}

并将给出完全相同的结果。简单的微积分表明

(matrixexp[i]-overallmean - expmean)+overallmean

完全等于

matrixexp[i]- expmean

并且由于 R 计算是矢量化的,因此不需要循环。它返回一个向量(因此是c()函数)。

使用unlist(),您可以进一步简化为:

batcheffect2 <- function(experiment){
  x <- unlist(experiment,use.names=F)
  x - mean(x)
}

再次返回完全相同的结果。你确定这是你的想法吗?


编辑 :

鉴于您的意见,我在这里添加测试代码。我命名了你的原始函数old.batcheffect()。如您所见,在示例数据帧上(并且在神秘初始化之后overallmean)所有函数的结果都是相同的:

> Df <- data.frame(A1=1:10,B1=10:1,C1=11:20)
> overallmean <- runif(1)
> X1 <- old.batcheffect(Df)
> X2 <- batcheffect(Df)
> X3 <- batcheffect2(Df)

> all.equal(X1,X2)
[1] TRUE
> all.equal(X2,X3)
[1] TRUE

编辑2:

要获得像原始数据一样返回数据帧的批处理效果,您只需要一行代码:

batcheffect <- function(x) x - mean(unlist(x))

您现在可以在一个函数中处理完整的原始数据帧:

summaryBatch <- function(data,groups){
    tmp <- lapply(groups,function(x){
        data[,grep(x,names(data))]
    })
    out <- lapply(tmp,function(x){
        x - mean(unlist(x))

    })
    do.call(cbind,out)
}

然后 :

summaryBatch(df,c("A","B","C"))

返回一个包含所有列的数据框,其中每列减去组平均值。如前所述,您可以添加并随后删除总体均值,但这根本没有区别。

于 2011-04-05T09:10:39.140 回答