16

我正在尝试分析来自明尼苏达大学 IPUMS 数据集的1990年美国人口普查数据。R我正在使用该survey包,因为数据是加权的。仅获取家庭数据(并忽略人员变量以使事情简单),我正在尝试计算hhincome家庭收入)的平均值。为此,我使用具有以下代码的函数创建了一个调查设计对象:svydesign()

> require(foreign)
> ipums.household <- read.dta("/path/to/stata_export.dta")
> ipums.household[ipums.household$hhincome==9999999, "hhincome"] <- NA # Fix missing 
> ipums.hh.design <- svydesign(id=~1, weights=~hhwt, data=ipums.household)
> svymean(ipums.household$hhincome, ipums.hh.design, na.rm=TRUE)
      mean     SE
[1,] 37029 17.365

到现在为止还挺好。但是,如果我尝试相同的计算Stata(使用用于同一数据集的不同部分的代码),我会得到不同的标准错误:

use "C:\I\Hate\Backslashes\stata_export.dta"
replace hhincome = . if hhincome == 9999999
(933734 real changes made, 933734 to missing)

mean hhincome [fweight = hhwt] # The code from the link above.

Mean estimation                     Number of obs    = 91746420

--------------------------------------------------------------
             |       Mean   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
    hhincome |   37028.99   3.542749      37022.05    37035.94
--------------------------------------------------------------

并且,在寻找另一种给这只猫剥皮的方法时,作者对频率加权提出survey以下建议:

expanded.data<-as.data.frame(lapply(compressed.data,
               function(x) rep(x,compressed.data$weights)))

但是,我似乎无法让这段代码工作:

> hh.dataframe <- data.frame(ipums.household$hhincome, ipums.household$hhwt)
> expanded.hh.dataframe <- as.data.frame(lapply(hh.dataframe, function(x) rep(x, hh.dataframe$hhwt)))
Error in rep(x, hh.dataframe$hhwt) : invalid 'times' argument

我似乎无法修复。这可能与这个问题有关。

总而言之:

  1. 为什么我在Stataand中得不到相同的答案R
  2. 哪一个是对的(或者我在这两种情况下都做错了什么)?
  3. 假设我得到了rep()解决方案,那会复制Stata的结果吗?
  4. 正确的方法是什么?如果答案允许我使用plyr包进行任意计算,而不是仅限于survey(等)中实现的函数svymean(),则表示敬意svyglm()

更新

因此,在我在这里和通过电子邮件从 IPUMS 收到的出色帮助之后,我正在使用以下代码来正确处理调查权重。我在这里描述以防其他人将来遇到此问题。

初始状态准备

由于 IPUMS 目前没有发布用于将数据导入 的脚本R,因此您需要从StataSASSPSS. 我暂时坚持Stata。首先从 IPUMS 运行导入脚本。然后在继续添加以下变量之前:

generate strata = statefip*100000 + puma

这将为 240001 表格中的每一个创建一个唯一的整数,PUMA前两位数字作为州 fip 代码(在马里兰州的情况下为 24),后四位PUMA是每个州唯一的 id。如果您要使用R,您可能还会发现运行它也很有帮助

generate statefip_num = statefip * 1

这将创建一个没有标签的附加变量,因为将.dta文件导入R应用标签并丢失底层整数。

统计数据和svyset

正如基思解释的那样,调查抽样是Stata通过调用来处理的svyset

对于个人水平分析,我现在使用:

svyset serial [pweight=perwt], strata(strata)

这将权重设置为perwt,将分层设置为我们在上面创建的变量,并使用家庭serial人数来解释聚类。如果我们使用多年,我们可能想尝试

generate double yearserial = year*100000000 + serial

还要考虑纵向聚类。

对于家庭层面的分析(没有年份):

svyset serial [pweight=hhwt], strata(strata)

应该是不言自明的(尽管我认为在这种情况下连续剧实际上是多余的)。替换serialyearserial将考虑时间序列。

在做R

假设您要导入.dta带有上述附加strata变量的文件并在单个字母处进行分析:

require(foreign)
ipums <- read.dta('/path/to/data.dta')
require(survey)
ipums.design <- svydesign(id=~serial, strata=~strata, data=ipums, weights=perwt)

或者在家庭层面:

ipums.hh.design <- svydesign(id=~serial, strata=~strata, data=ipums, weights=hhwt)

希望有人觉得这很有帮助,非常感谢来自 IPUMS 的 Dwin、Keith 和 Brandon。

4

3 回答 3

8

1&2) 你从 Lumley 引用的评论写于 2001 年,早于他发布的任何调查包的工作,该调查包仅发布了几年。您可能在两种不同的意义上使用“权重”。(Lumley 在他书中的早期描述了三种可能的感觉。)调查函数 svydesign 使用的是概率权重而不是频率权重。考虑到该数据集的庞大规模,这些似乎不是真正的频率权重,而是概率权重,这意味着调查包结果是正确的,而 Stata 结果是不正确的。如果您不相信,那么调查包提供了 as.svrepdesign() 函数,Lumley 的书中描述了如何从 svydesign 对象创建复制权重向量。

3)我想是的,但正如 RMN 所说......“那是错误的。”

4)由于这是错误的(IMO),因此没有必要。

于 2011-03-27T00:20:02.713 回答
5

您不应该在 Stata 中使用频率权重。这很清楚。如果 IPUMS 没有“复杂”的调查设计,您可以使用:

mean hhincome [pw = hhwt]

或者,为方便起见:

svyset [pw = hhwt]
svy: mean hhincome
svy: regress hhincome `x'

第二个选项的好处是您可以将其用于更复杂的调查设计(通过svyset上的选项。然后您可以运行许多命令而无需一直键入 [pw...]。

于 2011-03-28T14:47:16.273 回答
3

对无法访问 Stata 或 SAS 的人略微添加;(我会把它放在评论中,但是......) SAScii 库可以使用 SAS 代码文件来读取 IPUMS 下载的数据。读取数据的代码来自文档

library(SAScii)
IPUMS.file.location <- "..\\usa_00007dat\\usa_00007.dat"
IPUMS.SAS.read.in.instructions <- "..\\usa_00007dat\\usa_00007.sas"

#store the IPUMS extract as an R data frame!
IPUMS.df <- 
  read.SAScii ( 
    IPUMS.file.location , 
    IPUMS.SAS.read.in.instructions , 
    zipped = F )   
于 2013-01-23T21:38:58.570 回答