r - 在 R 中仅读取 Stata .DTA 文件的一部分

Question

如果这在某处有一个简单的答案，我提前道歉。这似乎是那种事情，但我似乎无法通过搜索 SO 或谷歌搜索在帮助文件中找到它。

我现在正在处理一些数 GB 的数据集。它足以容纳我可以访问的一个集群节点上的内存，但需要相当长的时间来加载。对于使用这些数据进行的许多调试/编程活动，我不需要加载整个文件，只需前几千个观察结果就有一个数据集来测试代码。我当然可以只读取整个文件和子集，但我想知道是否有办法告诉read.dta()只读取前 N 行？这当然会快得多。

我也可以使用像 .csv 这样的正确格式，然后使用read.csv()'s nrows 参数，但是我会丢失 Stata 数据集中的因子标签（并且必须从其他人的代码中重新创建相当多 GB 的数据这个项目。因此，首选 .dta 文件的直接解决方案。

score 9 · Accepted Answer

Stata 的二进制文件是逐行写入的，因此您可以更改R_LoadStataData函数stataread.c以限制读取的行数。但是，这仅在您不需要值标签时才有效，因为它们写在末尾文件，并要求您阅读整个文件——这不会节省任何时间。

score 7 · Accepted Answer

这将是一个困难的问题，因为do_readStata引擎盖下的函数是编译代码，只能接收整个文件。我相信通常二进制文件很难逐行读取，并且.dta是一种二进制格式。此外，R 的本机二进制格式不允许在读入时从数据集中选择多行。

以我的拙见，您最好从 Stata 中创建一组测试文件（例如，Stata 代码sample 1000, count将为您提供来自加载数据集的 1000 个观察值的样本），然后使用它们。如果你无法访问 Stata，项目中的其他人应该可以为你做这件事。

score 1 · Accepted Answer

跟进 Joris Meys：对于这种事情，我使用“测试”数据集和“真实”数据集，每个数据集都位于单独的文件夹中。我在 .do 文件的顶部保留了一个宏（使用下面的 if/then 语句）来（1）获取数据样本，（2）将输入/输出指向包含一个或另一个的正确文件夹。我可能对每个项目都做不同的事情，但是是这样的：

数据创建 .do 文件

blah blah blah 
save                  using data/myfile.dta
save if uniform()<.05 using test_data/myfile.dta   // or bsample, then save for panel data

分析.do文件

local test = "test_"   
// when you're ready to run the file with all the data, use the following 
// local test = ""

use `test'data/myfile.dta
blah blah blah 
outreg2 ... using `test'output/mytable.txt

r - 在 R 中仅读取 Stata .DTA 文件的一部分

3 回答 3

Related

Reference