我有一个data.frame,它的开头如下:
gene snp pval best_snp best_pval
1 ENSG00000007341 rs2932538 5.6007 rs17030613 10.0542
2 ENSG00000064419 rs10488631 7.7461 rs4728142 24.6101
3 ENSG00000064419 rs12531711 7.7449 rs4728142 24.6101
4 ENSG00000064419 rs12537284 4.5544 rs4728142 24.6101
5 ENSG00000064666 rs3764650 12.3401 rs3752246 5.4001
6 ENSG00000072682 rs10479002 5.0141 rs12521868 21.1550
如图所示,在第 2-4 行中重复了相同的基因。对于重复的基因,我只想保留基因第一次出现的第一best_snp
行的和best_pval
值,所以第 2 行;对于第 3 行和第 4 行,我想删除and值,因为它与上面相同。best_snp
best_pval
如果一个基因没有重复,那么就让它保持原样。
请记住,表格比显示的要大得多,基因在随机位置重复。