1

嗨,我有什么可能是一个非常简单的问题,但我无法弄清楚。我正在使用 ddply 创建要在 ggplot2 中使用的数据框。

这是我截断的数据:

Subject Group   Day gkg Strain
PE4 E   1   0.829556075 P
PE5 E   1   0.871823204 P
PE6 E   1   1.135461255 P
PS4 S   1   3.316062176 P
PS5 S   1   2.61627907  P
PS6 S   1   3.286004057 P
WE4 E   1   0.154101563 W
WE6 E   1   1.317852495 W
WS4 S   1   2.007434944 W
WS5 S   1   1.28        W
PE4 E   2   0.642209302 P
PE5 E   2   0.502644788 P
PE6 E   2   1.319834559 P
PS4 S   2   3.350515464 P
PS5 S   2   2.994241843 P
PS6 S   2   3.507014028 P
WE4 E   2   0.109366337 W
WE5 E   2   0.493125    W
WE6 E   2   0.721960784 W
WS4 S   2   2.542056075 W
WS5 S   2   1.23752495  W

我根据组 E 或 S 创建了该数据的子集

Edata = which(data$Group == "E")
e = data[Edata,]
Sdata = which(data$Group == "S")
s= data[Sdata,]

然后我尝试使用 ddply 创建一个数据框,包括平均值、标准差和平均值的标准误差

newdataIntakeEGKG = ddply(e, .(e$Strain, e$Day), summarise,
    N = sum(!is.na(e$gkg)),
    mean = mean(e$gkg, na.rm = TRUE),
    sd = sd(e$gkg, na.rm = TRUE),
    se = sd(e$gkg, na.rm = TRUE)/sqrt(sum(!is.na(e$gkg))))

这会生成以下输出:

e$Strain e$Day  N     mean        sd         se
1         P     1 60 0.630856 0.3593886 0.04639687
2         P     2 60 0.630856 0.3593886 0.04639687
3         P     3 60 0.630856 0.3593886 0.04639687
4         P     4 60 0.630856 0.3593886 0.04639687
5        W     1 60 0.630856 0.3593886 0.04639687
6        W     2 60 0.630856 0.3593886 0.04639687
7        W     3 60 0.630856 0.3593886 0.04639687
8        W     4 60 0.630856 0.3593886 0.04639687

当我用手计算时,我学会了它取两个菌株的平均值。我哪里做错了?

4

1 回答 1

1

您不希望e$ddply 调用中的所有内容。看看这是否有效。

ddply(e, .(Strain, Day), summarise,
      N=sum(!is.na(gkg)),
      mean=mean(gkg, na.rm=TRUE),
      sd=sd(gkg, na.rm=TRUE),
      se=sd(gkg, na.rm=TRUE)/sqrt(sum(!is.na(gkg))))

一个稍微干净的替代方案,尽管它可能不一定给出相同的结果:

ddply(na.omit(e), .(Strain, Day), summarise,
      N=length(gkg), mean=mean(gkg), sd=sd(gkg), se=sd(gkg)/length(gkg))
于 2013-08-06T16:25:51.063 回答