7

我正在尝试复制官方统计中经常使用的表格,但到目前为止还没有成功。给定一个像这样的数据框:

d1 <- data.frame( StudentID = c("x1", "x10", "x2", 
                          "x3", "x4", "x5", "x6", "x7", "x8", "x9"),
             StudentGender = c('F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'M', 'M'),
             ExamenYear    = c('2007','2007','2007','2008','2008','2008','2008','2009','2009','2009'),
             Exam          = c('algebra', 'stats', 'bio', 'algebra', 'algebra', 'stats', 'stats', 'algebra', 'bio', 'bio'),
             participated  = c('no','yes','yes','yes','no','yes','yes','yes','yes','yes'),  
             passed      = c('no','yes','yes','yes','no','yes','yes','yes','no','yes'),
             stringsAsFactors = FALSE)

我想创建一个表格,显示 PER YEAR ,所有学生(全部)的人数和女性人数,参加人数和通过人数。请注意以下“其中”是指所有学生。

我想到的表看起来像这样:

cbind(All = table(d1$ExamenYear),
  participated      = table(d1$ExamenYear, d1$participated)[,2],
  ofwhichFemale     = table(d1$ExamenYear, d1$StudentGender)[,1],
  ofwhichpassed     = table(d1$ExamenYear, d1$passed)[,2])

我确信在 R 中有更好的方法来处理这种事情。

注意:我见过 LaTex 解决方案,但我不使用这对我有用,因为我需要在 Excel 中导出表格。

提前致谢

4

4 回答 4

9

使用plyr

require(plyr)
ddply(d1, .(ExamenYear), summarize,
      All=length(ExamenYear),
      participated=sum(participated=="yes"),
      ofwhichFemale=sum(StudentGender=="F"),
      ofWhichPassed=sum(passed=="yes"))

这使:

  ExamenYear All participated ofwhichFemale ofWhichPassed
1       2007   3            2             2             2
2       2008   4            3             2             3
3       2009   3            3             0             2
于 2012-08-07T19:13:18.677 回答
4

这个plyr包非常适合这种事情。首先加载包

library(plyr)

然后我们使用ddply函数:

ddply(d1, "ExamenYear", summarise, 
      All = length(passed),##We can use any column for this statistics
      participated = sum(participated=="yes"),
      ofwhichFemale = sum(StudentGender=="F"),
      ofwhichpassed = sum(passed=="yes"))

基本上,ddply 需要一个数据帧作为输入并返回一个数据帧。然后,我们将输入数据帧拆分为ExamenYear。在每个子表上,我们计算一些汇总统计信息。请注意,在 ddply 中,我们在引用列时不必使用该$符号。

于 2012-08-07T19:14:21.967 回答
4

可能对您的代码进行了一些修改(用于with减少df$调用次数并使用字符索引来改进自我文档),这将使您的代码更易于阅读并成为ddply解决方案的有价值的竞争对手:

with( d1, cbind(All = table(ExamenYear),
  participated      = table(ExamenYear, participated)[,"yes"],
  ofwhichFemale     = table(ExamenYear, StudentGender)[,"F"],
  ofwhichpassed     = table(ExamenYear, passed)[,"yes"])
     )

     All participated ofwhichFemale ofwhichpassed
2007   3            2             2             2
2008   4            3             2             3
2009   3            3             0             2

我希望这比 ddply 解决方案快得多,尽管只有在处理更大的数据集时才会明显。

于 2012-08-07T19:28:11.267 回答
1

您可能还想看看 plyr 的下一个迭代器:dplyr

它使用类似 ggplot 的语法,并通过用 C++ 编写关键部分来提供快速性能。

d1 %.% 
group_by(ExamenYear) %.%    
summarise(ALL=length(ExamenYear),
          participated=sum(participated=="yes"),
          ofwhichFemale=sum(StudentGender=="F"),
          ofWhichPassed=sum(passed=="yes"))
于 2014-01-26T07:24:42.313 回答