4

我有一个非常大的数据集,如下所示: df <- data.frame(school=c("a", "a", "a", "b","b","c","c","c"), year=c(3,3,1,4,2,4,3,1), GPA=c(4,4,4,3,3,3,2,2))

school year GPA
  a    3   4
  a    3   4
  a    1   4
  b    4   3
  b    2   3
  c    4   3
  c    3   2
  c    1   2

我希望它看起来像:

school year GPA
 a    3   4
 a    3   4
 b    4   3
 c    4   3

所以基本上,我想要的是每个给定的学校,我想要他们的高年级学生(学生),不管 GPA 是多少。

我试过了:

new_df <- df[!duplicated(paste(df[,1],df[,2])),] 但这给了我学校和年级之间的独特组合。

而下面的那个给了我独特的学校 new_df2 <- df[!duplicated(df$school),]

4

2 回答 2

6

使用plyr图书馆

require(plyr)
ddply(df,.(school),function(x){x[x$year==max(x$year),]})
> ddply(df,.(school),function(x){x[x$year==max(x$year),]})
  school year GPA
1      a    3   4
2      a    3   4
3      b    4   3
4      c    4   3

或基地

test<-lapply(split(df,df$school),function(x){x[x$year==max(x$year),]})
out<-do.call(rbind,test)
> out
    school year GPA
a.1      a    3   4
a.2      a    3   4
b        b    4   3
c        c    4   3

说明: split将数据框按学校拆分为列表。

dat<-split(df,df$school)

> dat
$a
  school year GPA
1      a    3   4
2      a    3   4
3      a    1   4

$b
  school year GPA
4      b    4   3
5      b    2   3

$c
  school year GPA
6      c    4   3
7      c    3   2
8      c    1   2

对于每所学校,我们都希望成员名列前茅。

dum.fun<-function(x){x[x$year==max(x$year),]}

> dum.fun(dat$a)
  school year GPA
1      a    3   4
2      a    3   4

lapply对列表的成员应用函数并输出列表

> lapply(split(df,df$school),function(x){x[x$year==max(x$year),]})
$a
  school year GPA
1      a    3   4
2      a    3   4

$b
  school year GPA
4      b    4   3

$c
  school year GPA
6      c    4   3

这就是我们想要的,但是以列表的形式。我们需要将列表的成员绑定在一起。我们通过rbind依次使用 调用成员来做到这一点do.call

于 2012-08-14T01:25:44.113 回答
5

我很喜欢这种事情的by声明(请参阅 参考资料)。根据 被分成组,然后返回代表 的每所学校的行。?bydfdf$schoolmax(year)

> by(df,df$school,function(x) x[x$year==max(x$year),])
df$school: a
  school year GPA
1      a    3   4
2      a    3   4
------------------------------------------------------------ 
df$school: b
  school year GPA
4      b    4   3
------------------------------------------------------------ 
df$school: c
  school year GPA
6      c    4   3

do.call(rbind...by只需将语句返回的每所学校的结果结合起来。

do.call(rbind,by(df,df$school,function(x) x[x$year==max(x$year),]))

    school year GPA
a.1      a    3   4
a.2      a    3   4
b        b    4   3
c        c    4   3
于 2012-08-14T02:23:49.357 回答