2

我正在为一系列多项选择考试计算项目统计数据。我有一个使用 mapply 的解决方案,该解决方案在技术上可行,但需要几个小时来计算其中一个更复杂的统计数据。我拥有的第一个数据集是每个学生在每次评估中回答的每个问题都包含一个单独的行。

df <- data.frame(c(rep("s1", 5), rep("s2", 5), rep("s3", 5),rep("s4", 5)),"a1", c("i1", "i2", "i3", "i4", "i5"), c(1, 0), 1)

colnames(df) <- c("student", "assessment", "item", "score", "points.possible")

我要做的第一步(并且只做一次)是创建一个包含所有唯一项目的表。在这种情况下,这很简单,因为只有一个评估和 5 个项目。

unique <- subset(df[,c("assessment", "item")], !duplicated(df[,c("assessment", "item")]))

然后我需要为这些项目中的每一项计算一个统计数据。然而,棘手的部分是计算需要计算学生在整个评估中获得的总分。这是我为此编写的函数。

fun1 <- function(a.id, i.id) {
  # subset original dataframe for just one assessment
  subsetdf <- df[df$assessment == a.id,]

  # generate list of students that got the item right and wrong
  correct <- subsetdf$student[subsetdf$item==i.id & subsetdf$score==1]
  wrong <- subsetdf$student[subsetdf$item==i.id & subsetdf$score==0]

  # scores by student
  scores <- aggregate(score ~ student, data=subsetdf,sum)/aggregate(points.possible ~ student, data=subsetdf, sum)  

  # average scores for students that got item right/wrong
  x.1 <- sum(subsetdf$score[subsetdf$student %in% correct])/sum(subsetdf$points.possible[subsetdf$student %in% correct])
  x.0 <- sum(subsetdf$score[subsetdf$student %in% wrong])/sum(subsetdf$points.possible[subsetdf$student %in% wrong])

  # percent of students that got item right
  p <- length(correct)/(length(correct)+length(wrong))

  # final stat calculation
  r <- ((x.1-x.0)*sqrt(p*(1-p)))/sd(scores[,2])
  print(r)
}

然后我使用 mapply 在整个原始数据集上循环这个函数,同时使用较小的数据集作为输入。

unique$r <- mapply(fun1, unique$assessment, unique$item)

我很高兴我能够让它工作,但是当我使用更大的数据集(“df”约 700 万行,“unique”约 2000 行)时,需要相当长的时间(几个小时)。关于解决这个问题的其他更有效方法的任何提示?我了解到一个问题是我的函数每次循环时都会创建原始大型数据集的副本,但我不知道如何解决这个问题没有那个。

我仍然认为自己是 R 的这种用法的初学者,所以任何建议都将不胜感激!

4

1 回答 1

0

当你表演

scores <- aggregate(score ~ student, data=subsetdf,sum)/aggregate(points.possible ~ student, data=subsetdf, sum)  

结果不是严格的数字,结果是一个数据框(例如 for a.id = 'a1', i.id = 'i1'):

> aggregate(score ~ student, data=subsetdf,sum)
      student score
1      s1     3
2      s2     2
3      s3     3
4      s4     2

因此,当您将两者相除时,结果's1'/'s1'不是数字并引发警告。

  1. 无需创建correctwrong。将该列的值视为一个指标,以告诉您学生是对还是错。

相反,请执行以下操作:

scores <- aggregate(subsetdf[,c('score', 'points.possible')], by = list(subsetdf$student), sum)
names(scores) <- c('student', 'score','points.possible')
scores$avg.score <- scores$score/scores$points.possible

我会为x.0和做同样的事情x.1。如果您创建一个子集i.id然后聚合该数据框的子集,这也应该为您节省几个步骤。您正在检查每个学生是否在correctwrong两次(for scoreand points.possible)这一事实也非常昂贵。

于 2015-04-01T21:46:26.850 回答