r - 如何将用于 SAS、SPSS 或 STATA 的数据导入 R？

Question

我正在尝试从 R 中的国家健康访谈调查中读取数据：http ://www.cdc.gov/nchs/nhis/nhis_2011_data_release.htm 。数据是成人样本。该SAScii库实际上有一个函数read.SAScii，其文档中有一个我想使用的相同数据集的示例。问题是它“不起作用”：

NHIS.11.samadult.SAS.read.in.instructions <- 
  "ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Program_Code/NHIS/2011/SAMADULT.sas"
NHIS.11.samadult.file.location <- 
  "ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2011/samadult.zip"

#store the NHIS file as an R data frame!
NHIS.11.samadult.df <- 
  read.SAScii ( 
    NHIS.11.samadult.file.location , 
    NHIS.11.samadult.SAS.read.in.instructions , 
    zipped = T, )

#or store the NHIS SAS import instructions for use in a 
#read.fwf function call outside of the read.SAScii function
NHIS.11.samadult.sas <- parse.SAScii( NHIS.11.samadult.SAS.read.in.instructions )

#save the data frame now for instantaneous loading later
save( NHIS.11.samadult.df , file = "NHIS.11.samadult.data.rda" )

但是，在运行它时，我得到了错误Error in toupper(SASinput) : invalid multibyte string 533。

Stack Overflow 上的其他人也有类似的错误，但对于和等函数read.delim，read.csv建议尝试将参数更改fileEncoding="latin1"为例如。问题read.SAScii是它没有这样的参数fileEncoding。

请参阅： R：read.csv 中的无效多字节字符串和无效多字节字符串

score 2 · Accepted Answer

以防万一有人遇到类似问题，我的问题和解决方案是options( encoding = "windows-1252" )在运行上述代码之前立即运行，read.SAScii因为 ASCII 文件用于 SAS 并因此用于 Windows。我正在使用Linux。

该SAScii库的作者实际上有另一个 Github 存储库asdfree，其中他有用于下载所有可用年份的 CDC-NHIS 数据集以及来自各种调查（如美国住房调查、FDA 药物调查等）的许多其他数据集的工作代码。

以下链接是作者对这个问题的问题的解决方案。从那里，您可以轻松找到asdfree存储库的链接：https ://github.com/ajdamico/SAScii/issues/3 。

就这个数据集而言，https://github.com/ajdamico/asdfree/blob/master/National%20Health%20Interview%20Survey/download%20all%20microdata.R#L8-L13中的代码可以解决问题，但是它不会正确地将列编码为因子或数字。好消息是，对于 NHIS 年份中的任何给定数据集，只有不到 10 到 20 个数字列，其中将它们逐个编码为数字并不那么痛苦，而将其余列编码为数字只需要循环遍历非数字列。

对我来说最简单的解决方案是运行http://www.cdc.gov/nchs/中包含的 SAS 程序，因为我只需要Sample Adult2011 年的数据集，并且我能够使用安装了 SAS 的机器。 nhis/nhis_2011_data_release.htm根据需要对列进行编码。最后，我曾经proc export将 sas 数据集导出到一个CSV文件中，然后在 R 中轻松打开该文件，除了处理缺失值外，无需对数据进行任何必要的编辑。

如果您想使用除 Sample Adult 之外的 NHIS 数据集，值得注意的是，当我为 2010 年“Sample Adult Cancer”运行可用的 SAS 程序时 ( http://www.cdc.gov/nchs/nhis/nhis_2010_data_release.htm ) 并将数据导出到 CSV，当我尝试在 R 中读取 CSV 文件时，存在列名少于实际列的问题。跳过第一行可解决此问题，但您会丢失描述性列名。但是，您可以轻松地导入相同的数据，而无需使用asdfree存储库中的 R 代码进行编码。请阅读那里的文档以获取更多信息。

r - 如何将用于 SAS、SPSS 或 STATA 的数据导入 R？

1 回答 1

Related

Reference