这是我的数据样本 (n>3000),它将两个数字联系在一起:
id a b
1 7028344 7181310
2 7030342 7030344
3 7030354 7030353
4 7030343 7030345
5 7030344 7030342
6 7030364 7008059
7 7030659 7066051
8 7030345 7030343
9 7031815 7045692
10 7032644 7102337
现在,问题是 id=2 是 id=5 的副本,而 id=4 是 id=8 的副本。因此,当我尝试编写 if-then 语句将 column 映射a
到 columnb
时,基本上数字只是被交换了。在我的完整数据中有很多这样的案例。
所以,我的问题是识别重复项并以某种方式删除其中一个重复项(id=2 或 id=5)。我最好在 Excel 中执行此操作,但我也可以使用 SQL Server 或 SAS。
先感谢您。如果我的问题不清楚,请发表评论。
我想要的是:
id a b
1 7028344 7181310
2 7030342 7030344
3 7030354 7030353
4 7030343 7030345
6 7030364 7008059
7 7030659 7066051
9 7031815 7045692
10 7032644 7102337