1

开普敦大学通过其DataFirst Portal提供数据。

他们的所有数据都以以下格式提供:

  1. SAS (sab7bdat)
  2. SPSS
  3. 斯塔塔 (12)

我想使用Haven 包将数据集导入R,它支持上述所有格式(它利用ReadStat Library)。

执行此操作的首选格式是哪种?

进一步来说:

  1. 原始格式的可用数据是否存在差异?
  2. 某些格式是否比其他格式更接近 R 的格式,这会影响输出吗?
  3. 速度上有区别吗?(不太重要)
4

1 回答 1

0

在不同系统之间传输数据的最佳方式是.csv,因为所有系统都可以轻松读取它。

由于您只能访问其他格式,因此应该没有太大区别(假设haven适用于所有格式)。

至于你的问题:

我不知道数据可用性或格式兼容性方面的任何差异。但是,如果您想加快速度,您可能应该查看data.tablefread(替换read.table,因此不支持上述文件)。

您可以像这样读取数据:

library(haven)
dat <- read_sas("link_to_sas_file")
dat <- read_spss("link_to_spss_file")
dat <- read_stata("link_to_stata_file")
于 2015-11-12T13:31:37.657 回答