我有两个数据集:
- “母亲” - 变量“母亲”= 1 的 5,512 个观察值
- "all_women" - 2,336,750 个观察值,其中变量 "MOTHER" = 0
我将两者结合如下:
data combined;
set mothers all_women;
现在,由于母亲已经在数据集 all_women 中,我想删除重复的条目 - 条件是我将观察结果保留在“MOTHER”=1 的位置。
我尝试了以下方法:
proc sort data=combined; by ID DESCENDING MOTHER; run;
proc sort data=combined nodupkeys; by ID; run;
但是我失去了一些母亲,因为我只剩下 5458 个“母亲”=1 的观察结果。我做了什么来引入这个错误?