在尝试对不同 ID 变量组中的行进行比较时,我需要一些帮助,所有这些都在一个数据集中。
也就是说,如果两个或多个 ID 组中有任何重复的观察,那么我想完全删除观察。
我想识别不同组的行之间的任何重复项并完全删除观察结果。
例如:
ID Value
1 A
1 B
1 C
1 D
1 D
2 A
2 C
3 A
3 Z
3 B
我想要的输出是:
ID Value
1 D
3 Z
我在网上查了很多东西,并尝试了一些东西。我想我可以用标志标记重复项,然后根据该标志删除。
标记代码是:
data have;
set want;
flag = first.ID ne last.ID;
run;
这适用于某些情况,但我也标记了同一值组中的重复项。
因此,第一个观察被删除:
ID Value
3 Z
我也试过:
data have;
set want;
flag = first.ID ne last.ID and first.value ne last.value;
run;
但这根本没有标记任何重复项。
我将不胜感激任何帮助。如果需要任何其他信息,请告诉我。
谢谢。
