1

我有一个 data.frame 有 2 列代表 2 个基因之间的相互作用。data.frame 的外观示例:

head(df)
V1       V2
A1BG     A1BG
A1BG    CRISP3
A1CF     A1CF
A1CF   APOBEC1
A1CF    CUGBP2
A1CF     KHSRP

我想根据第一列的值拆分 data.frame,我使用了以下命令:

out <- split(df, df$V1)

所需的输出应该是:

out
$A1BG
[1] A1BG CRISP3

$A1CF
[2] A1CF APOBEC1 CUGBP2 KHSRP

但是,使用拆分的过程需要很长时间,因为我的文件太大(大约 200,000 行)

非常感谢

4

1 回答 1

5

为了加快速度,特别是如果您只需要df$V2在 的基础上拆分,df$V1请在调用中仅使用该向量而split不是整个数据帧df。例如:

## Dummy data
df <- read.table(text = "V1       V2
A1BG     A1BG
A1BG    CRISP3
A1CF     A1CF
A1CF   APOBEC1
A1CF    CUGBP2
A1CF     KHSRP", header = TRUE)
## make it big!
df <- with(df, cbind.data.frame(V1 = rep(V1, length.out = 1e5),
                                V2 = rep(V2, length.out = 1e5)))
# time it
system.time(sp1 <- split(df, df$V1))

system.time(sp2 <- split(df$V2, df$V1))

> system.time(sp1 <- split(df, df$V1))
   user  system elapsed 
  0.024   0.000   0.016 
> system.time(sp2 <- split(df$V2, df$V1))
   user  system elapsed 
  0.008   0.000   0.005

这是一个级别很少的示例。对于非常多的级别,拆分整个数据帧的低效率开始严重影响计算时间,例如对于大约 10000 个级别的因子:

df2 <- data.frame(V1 = factor(sample(10000, 1e5, replace = TRUE)),
                  V2 = rnorm(1e5))

system.time(sp3 <- split(df2, df2$V1))

system.time(sp4 <- split(df2$V2, df2$V1))

> system.time(sp3 <- split(df2, df2$V1))
   user  system elapsed 
  5.332   0.000   4.216 
> 
> system.time(sp4 <- split(df2$V2, df2$V1))
   user  system elapsed 
  0.008   0.000   0.005

这样做的原因是,在这种split(df, df$V1)情况下,该split.data.frame方法被调用,该方法lapply()对向量本身执行一个由( )1:nrow(df)分成组的方法,并将一个函数 ( ) 应用于每个组件。因此,随着级别数量的增加,对该匿名函数的函数调用次数也会增加并增加计算时间。fdf$V2function(ind) x[ind, , drop = FALSE])

在使用方法的split(df$V2, df$v1)情况下split.default,如果使用 factor 调用,f基本上只需要调用split. 因此,它不会产生任何调用匿名函数的开销,也不会重复调用[.

于 2013-05-14T17:15:02.407 回答