我的编程经验很少,但我正在从事一个统计项目,并希望生成一个不等概率样本,其中一个单元的包含概率基于其大小 (PPS)。
基本上,我有两个数据集:
ds1
列出美国各州和我试图估计的参数ds2
有每个州的人口规模。
我的问题:
我想使用 R 使用基于每个州(第二个数据集)人口的包含概率从第一个数据集中选择一个随机样本。
还有什么方法可以使用 R 来计算这些广义不等概率估计器公式?
也只是对公式的注释:pi_i 是包含概率,pi_ij 是联合包含概率。
我的编程经验很少,但我正在从事一个统计项目,并希望生成一个不等概率样本,其中一个单元的包含概率基于其大小 (PPS)。
基本上,我有两个数据集:
ds1
列出美国各州和我试图估计的参数ds2
有每个州的人口规模。我的问题:
我想使用 R 使用基于每个州(第二个数据集)人口的包含概率从第一个数据集中选择一个随机样本。
还有什么方法可以使用 R 来计算这些广义不等概率估计器公式?
也只是对公式的注释:pi_i 是包含概率,pi_ij 是联合包含概率。
是的,这叫做加权抽样。只需将权重设置为状态的大小,严格来说,您甚至不需要将它们标准化,1/sum(sizes)
尽管这样做总是很好的做法。SO上有大量重复的帖子显示如何进行加权抽样。
唯一的小麻烦是你需要做一个join()
数据集ds1, ds2
。如果导致问题,请向我们展示您尝试过的代码。建议您使用dplyr
或data.table
。
您的第二个问题应该作为一个单独的问题提出,并且与 SO 无关,或者至少不会得到很好的回应 - 最好在姊妹网站CrossValidated上提出统计问题