假设我试图var_1
在一个非常大的数据集(近 TB)中总结一个变量(称为它)。数据集既长又宽。我的代码如下所示:
PROC MEANS DATA=my_big_dataset SUM;
VAR var_1;
RUN;
KEEP
通过使用正在读取的数据集上的选项,我会获得任何性能提升吗?那是:
PROC MEANS DATA=my_big_dataset (KEEP=var_1) SUM;
VAR var_1;
RUN;
在磁盘 I/O 方面,我认为无论如何都必须完整读取每条记录。但也许需要分配更少的内存来读取记录。任何建议表示赞赏。