如果这在某处有一个简单的答案,我提前道歉。这似乎是那种事情,但我似乎无法通过搜索 SO 或谷歌搜索在帮助文件中找到它。
我现在正在处理一些数 GB 的数据集。它足以容纳我可以访问的一个集群节点上的内存,但需要相当长的时间来加载。对于使用这些数据进行的许多调试/编程活动,我不需要加载整个文件,只需前几千个观察结果就有一个数据集来测试代码。我当然可以只读取整个文件和子集,但我想知道是否有办法告诉read.dta()
只读取前 N 行?这当然会快得多。
我也可以使用像 .csv 这样的正确格式,然后使用read.csv()
's nrows 参数,但是我会丢失 Stata 数据集中的因子标签(并且必须从其他人的代码中重新创建相当多 GB 的数据这个项目。因此,首选 .dta 文件的直接解决方案。