6

我在 R 中有一个这样的数据框。我想提取每个主题的最后一次访问。

附属访问

   40161       3  
   40161       4  
   40161       5  
   40161       6  
   40161       9  
   40201       3  
   40202       6  
   40202       8  
   40241       3  
   40241       4 

所需的输出如下

附属访问

   40161     9  
   40201     3  
   40202     8  

我应该如何在 R 中做到这一点?非常感谢您的帮助。

4

7 回答 7

6

虽然 agstudy 是正确的,但 stats 包和聚合函数还有另一种方法。

df <- read.table(text="SUBJID VISIT
40161 3
40161 4
40161 5
40161 6
40161 9
40201 3
40202 6
40202 8
40241 3
40241 4", header=TRUE)


aggregate(VISIT ~ SUBJID, df, max)

  SUBJID VISIT
1  40161     9
2  40201     3
3  40202     8
4  40241     4
于 2013-02-16T05:58:28.830 回答
4

为了展示另一种选择,因为我喜欢它的简单语法,你也可以使用data.table。假设你data.frame被称为“df”:

library(data.table)
# data.table 1.8.7  For help type: help("data.table")
DT <- data.table(df, key = "SUBJID")
DT[, list(VISIT = max(VISIT)), by = key(DT)]
#    SUBJID V1
# 1:  40161  9
# 2:  40201  3
# 3:  40202  8
# 4:  40241  4

而且,虽然我们分享了在 R 中执行此操作的多种方法,但如果您对 SQL 语法感到满意,您还可以使用sqldf如下方式:

library(sqldf)
sqldf("select SUBJID, max(VISIT) `VISIT` from df group by SUBJID")
  SUBJID VISIT
1  40161     9
2  40201     3
3  40202     8
4  40241     4
于 2013-02-16T06:40:48.513 回答
3

因为我们可以,另一个基本选项:

 do.call(rbind,
         lapply(split(dat, dat$SUBJID), 
                function(x) tail(x$VISIT, 1) ) )
#      [,1]
#40161    9
#40201    3
#40202    8
#40241    4

编辑

正如@BenBolker 建议的那样:

 do.call(rbind,
             lapply(split(dat, dat$SUBJID), 
                    function(x) tail(x, 1) ) )

如果您有更多列,应该适用于所有列。

于 2013-02-16T11:42:17.260 回答
1

plyr包为例:

 ddply(dat,.(SUBJID),summarise,VISIT=tail(VISIT,1))
  SUBJID VISIT
1  40161     9
2  40201     3
3  40202     8
4  40241     4

数据在哪里:

dat <- read.table(text ='SUBJID VISIT
40161 3
40161 4
40161 5
40161 6
40161 9
40201 3
40202 6
40202 8
40241 3
40241 4',head=T)
于 2013-02-16T05:36:43.190 回答
1

这是一个简单的解决方案diff

dat[c(diff(dat$SUBJID) != 0, TRUE), ]

   SUBJID VISIT
5   40161     9
6   40201     3
8   40202     8
10  40241     4

也可以使用by

do.call(rbind, by(dat, dat$SUBJID, tail, 1))

      SUBJID VISIT
40161  40161     9
40201  40201     3
40202  40202     8
40241  40241     4
于 2013-02-16T13:58:38.797 回答
1

它也可以使用sqldf包,库(sqldf)

sqldf("SELECT SUBJID, MAX(VISIT) From df GROUP BY by SUBJID")

  SUBJID VISIT
1  40161     9
2  40201     3
3  40202     8
4  40241     4
于 2019-06-13T17:13:59.280 回答
0

或者(使用@agstudy 的数据),

g <- grouping(df$SUBJID)
df[g[attr(g, "ends")],]

   SUBJID VISIT
5   40161     9
6   40201     3
8   40202     8
10  40241     4

或使用 data.table

library(data.table)
unique(setDT(df), by="SUBJID", fromLast=TRUE)

   SUBJID VISIT
1:  40161     9
2:  40201     3
3:  40202     8
4:  40241     4
于 2019-06-11T19:50:21.107 回答