早些时候我问了一个关于从数据框中提取重复行的问题。我现在需要运行一个脚本来决定将哪些重复项保留在我的最终数据集中。
此数据集中的重复条目具有相同的“测定”和“样品”值。这是我正在使用的新数据集的前 10 行,其中包含我的重复条目:
Assay Sample Genotype Data
1 CCT6-002 1486 A 1
2 CCT6-002 1486 G 0
3 CCT6-002 1997 G 0
4 CCT6-002 1997 NA NA
5 CCT6-002 0050 G 0
6 CCT6-002 0050 G 0
7 CCT6-015 0082 G 0
8 CCT6-015 0082 T 1
9 CCT6-015 0121 G 0
10 CCT6-015 0121 NA NA
我想运行一个脚本,根据“数据”的值(可以是 1、0 或 NA)将这些重复的样本分成 4 个箱:
1) All values for 'Data' are NA
2) All values for 'Data' are identical, no NA
3) At least 1 value for 'Data' is not identical, no NA.
4) At least 1 value for 'Data' is not identical, at least one is NA.
上述数据的预期结果如下所示;
Set 1
Null
Set 2
5 CCT6-002 0050 G 0
6 CCT6-002 0050 G 0
Set 3
1 CCT6-002 1486 A 1
2 CCT6-002 1486 G 0
7 CCT6-015 0082 G 0
8 CCT6-015 0082 T 1
Set 4
3 CCT6-002 1997 G 0
4 CCT6-002 1997 NA NA
9 CCT6-015 0121 G 0
10 CCT6-015 0121 NA NA
在某些情况下,该数据集中存在超过 2 个“重复”数据点。我什至不确定从哪里开始,因为我是 R 的新手。
编辑:使用预期数据。