6

我有一个非常大的数据框,我想根据向量的某个子集保存一个子集。简而言之,我有这样的事情:

> id<-c("ID1","ID2","ID2","ID3","ID4","ID4","ID4","ID4","ID4")
> status<-c("flag","flag","none","none","flag","flag","flag","none","flag")
> misc1ofmany<-c("etc1","etc2","etc3","etc4","etc5","etc6","etc7","etc8","etc9")
> df = data.frame(id, status, misc1ofmany) ; df
   id status misc1ofmany
1 ID1   flag        etc1
2 ID2   flag        etc2
3 ID2   none        etc3
4 ID3   none        etc4
5 ID4   flag        etc5
6 ID4   flag        etc6
7 ID4   flag        etc7
8 ID4   none        etc8
9 ID4   flag        etc9

我想要所有已标记的 ID 行,包括它们的未标记会话。现在我正在尝试通过 grep 获取其他 ID 的索引并将其插入新的 df 中。实际上,当我写这篇文章时,我发现 grepl 可能更容易使用:

> flaggedIDs <- unique(as.vector(df$id[grep("flag",df$status)]))
> flaggedIDs.allStats.Index <- mapply(grepl,df$id,MoreArgs=list(x=flaggedIDs)) 
> flaggedIDs.allStats.Index
      [,1]  [,2]  [,3]  [,4]  [,5]  [,6]  [,7]  [,8]  [,9]
[1,]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[2,] FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE
[3,] FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE

但是我只想到这里:

> flaggedIDsdf <- df[flaggedIDs.allStats.Index] ; flaggedIDsdf
   id status misc1ofmany
1 ID1   flag        etc1
2 ID2   flag        etc2
3 ID2   none        etc3
4 ID4   flag        etc5
5 ID4   flag        etc6
6 ID4   flag        etc7
7 ID4   none        etc8
8 ID4   flag        etc9

我觉得这应该比我想象的要简单,但是我尝试了多种可能性来解决这个问题,但无济于事。写出这个问题有助于这在我脑海中成为一个更清晰/更简单的问题(看起来我现在只是错过了一步),但现在我也想知道是否有更有效的方法来解决这个问题。

4

3 回答 3

6

data.table在这里非常有用,因为它优雅的语法和内存效率

library(data.table)

DT <- data.table(df)

setkey(DT, 'id')

DT[DT[status=='flag', list(id = unique(id))]]

    id status misc1ofmany
1: ID1   flag        etc1
2: ID2   flag        etc2
3: ID2   none        etc3
4: ID4   flag        etc5
5: ID4   flag        etc6
6: ID4   flag        etc7
7: ID4   none        etc8
8: ID4   flag        etc9

或者更紧凑

DT[J(unique(id[status=='flag']))]

i上面这两种方法使用了组件首先由 评估的事实data.table。通过键控,我们可以进行id自连接以仅提取.idsstatus=='flag


或者,使用by

DT[,if(any(status=='flag')){.SD} ,by=id]

这通过DTby的子集id,并返回.SD(子集的 data.table) if any(status=='flag')(在该子集中)。

于 2012-11-29T00:50:26.177 回答
2

这似乎有效:

df[df$id %in% df$id[df$status == "flag"],]

普通英语:从数据框中,选择 id 元素在任何行中标记状态的 id 元素向量中的每一行。

于 2012-11-29T00:50:03.900 回答
1

我相信您正在尝试做的事情可能会在一行中处理

df[which(df$id %in% df$id[df$status=="flag"]), ]

结果:

   id status misc1ofmany
1 ID1   flag        etc1
2 ID2   flag        etc2
3 ID2   none        etc3
5 ID4   flag        etc5
6 ID4   flag        etc6
7 ID4   flag        etc7
8 ID4   none        etc8
9 ID4   flag        etc9
于 2012-11-29T00:43:06.217 回答