2

我的编程经验很少,但我正在从事一个统计项目,并希望生成一个不等概率样本,其中一个单元的包含概率基于其大小 (PPS)。

基本上,我有两个数据集:

  • ds1列出美国各州和我试图估计的参数
  • ds2有每个州的人口规模。

我的问题:

  1. 我想使用 R 使用基于每个州(第二个数据集)人口的包含概率从第一个数据集中选择一个随机样本。

  2. 还有什么方法可以使用 R 来计算这些广义不等概率估计器公式?

广义不等概率估计器 广义不等概率估计量的估计方差

也只是对公式的注释:pi_i 是包含概率,pi_ij 是联合包含概率。

4

2 回答 2

0

在 R- pp​​s中有一个相同的包,文档在这里

此外,还有一个名为调查的软件包,这里有一些文档

我不确定两者之间的区别,我自己也没有使用过它们。希望这就是你要找的。

于 2017-12-03T02:51:48.230 回答
0

是的,这叫做加权抽样。只需将权重设置为状态的大小,严格来说,您甚至不需要将它们标准化,1/sum(sizes)尽管这样做总是很好的做法。SO上有大量重复的帖子显示如何进行加权抽样。

唯一的小麻烦是你需要做一个join()数据集ds1, ds2。如果导致问题,请向我们展示您尝试过的代码。建议您使用dplyrdata.table

您的第二个问题应该作为一个单独的问题提出,并且与 SO 无关,或者至少不会得到很好的回应 - 最好在姊妹网站CrossValidated上提出统计问题

于 2017-12-03T02:47:29.733 回答