我有这个数据框:
Name Country Gender Age
1 John GB M 25
2 Mark US M 35
3 Jane 0 0 0
4 Jane US F 30
5 Jane US F 0
6 Kate GB F 18
如您所见,值“Jane”出现了 3 次。我想要做的是根据变量“名称”对列表进行重复数据删除,但是因为其余列对我很重要,所以我想保留其中包含最多信息的行。例如,如果我要在 excel 中对上述文件进行重复数据删除,它将保留“Jane”的第一个值并删除所有其他值。但是“Jane”的第一个值(第 3 行)在其他列中缺少信息。
因此,换句话说,我想按“名称”对列表进行重复数据删除,但添加一个标准以保留“年龄”列中具有不同于“0”的任何其他值的行。这样我会得到的结果是这样的:
Name Country Gender Age
1 John GB M 25
2 Mark US M 35
3 Jane US F 30
4 Kate GB F 18
我试过这个
file3 <- file1[!duplicated(file1$Name),]
但与 excel 一样,它保留“Jane”的值,在其他列中没有可用信息。
如何根据 ZA 顺序中的“年龄”列对行进行排序,以便在对列表进行重复数据删除时,任何具有“0”的内容都将位于底部并被删除?
干杯
大卫