他们的所有数据都以以下格式提供:
- SAS (sab7bdat)
- SPSS
- 斯塔塔 (12)
我想使用Haven 包将数据集导入R,它支持上述所有格式(它利用ReadStat Library)。
执行此操作的首选格式是哪种?
进一步来说:
- 原始格式的可用数据是否存在差异?
- 某些格式是否比其他格式更接近 R 的格式,这会影响输出吗?
- 速度上有区别吗?(不太重要)
他们的所有数据都以以下格式提供:
我想使用Haven 包将数据集导入R,它支持上述所有格式(它利用ReadStat Library)。
执行此操作的首选格式是哪种?
进一步来说:
在不同系统之间传输数据的最佳方式是.csv
,因为所有系统都可以轻松读取它。
由于您只能访问其他格式,因此应该没有太大区别(假设haven
适用于所有格式)。
至于你的问题:
我不知道数据可用性或格式兼容性方面的任何差异。但是,如果您想加快速度,您可能应该查看data.table
它fread
(替换read.table
,因此不支持上述文件)。
您可以像这样读取数据:
library(haven)
dat <- read_sas("link_to_sas_file")
dat <- read_spss("link_to_spss_file")
dat <- read_stata("link_to_stata_file")