r - 从数据框中按组随机抽取 2 个单独的 100 个模拟

Question

这个问题不是关于采样数据，我知道 sample_n 但这个问题是关于模拟数据帧中的数据以比较它们的平均值与模拟与实际（使用 group_by 总结）。

我计算了使用以下平均值的实际差异

df %>% 
  group_by(allfour) %>% 
  summarise(hs_completion=mean(hsgrad),
            count=n())

但是，我正在努力从每组中绘制 100 个模拟，然后将每个向量除以各自的组大小，以将它们转化为模拟毕业率，并计算两组之间这些比率的差异。发布此消息后，我需要绘制这些模拟差异的直方图，并在观察数据中计算的均值差异值处向该直方图添加一条红色垂直线。

我知道 tidyverse 和 ggplot，所以在记录有限的情况下，如何进行 100 次模拟不是问题。

Dataframe df 示例如下：

    structure(list(hsgrad = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 0L, 1L, 1L, 0L, 0L, 1L, 1L, 1L, 1L, 0L, 1L, 0L, 0L, 
0L, 1L, 1L, 0L, 0L, 0L, 0L, 1L, 1L, 0L, 1L, 1L, 1L, 0L, 0L, 0L, 
1L, 1L, 0L, 0L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 0L, 1L, 0L, 0L, 
0L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 0L, 1L, 0L, 0L, 
1L, 1L, 0L, 1L, 1L, 1L, 0L, 0L, 0L, 0L, 1L, 1L, 0L, 0L, 1L, 1L, 
1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 0L), allfour = structure(c(1L, 
2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 
1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 2L, 1L), .Label = c("0", "1"), class = "factor")), row.names = c(NA, 
100L), class = "data.frame")

score 2 · Accepted Answer

重要信息在这一行：

所以你需要在每组中用这个成功概率来模拟伯努利。我们计算总体成功（毕业）率：

rate = mean(df$hsgrad)

1次模拟的基本代码是这样的，你给出模拟次数（1000），试验次数（即组的大小）和成功率（从上面）：

sim_1 = rbinom(1000,sum(df$allfour==1),prob=rate)
hist(sim_1/sum(df$allfour==1),br=20)

这为您提供了 allfour==1 组中的模拟成功概率，假设该比率是总体比率。现在我们只需要对两个组执行此操作：

grp0_size = sum(df$allfour==0)
grp1_size = sum(df$allfour==1)
nsim = 1000
observed = diff(tapply(df$hsgrad,df$allfour,mean))

data.frame(
grp0_success = rbinom(nsim,grp0_size,rate)/grp0_size,
grp1_success = rbinom(nsim,grp1_size,rate)/grp1_size) %>%
mutate(diff=grp1_success-grp0_success) %>%
ggplot(aes(x=diff)) + geom_histogram() +
geom_vline(xintercept=observed)

r - 从数据框中按组随机抽取 2 个单独的 100 个模拟

1 回答 1

Related

Reference