我想知道如何根据两行的总和从包含超过一定数量字符的数据集中删除行。
例如,在以下数据中:
2 rs121065 0 17696224 T C
2 rs1860485 0 17696230 T C
2 rs237147 0 17696256 C CGAGGCAG
2 rs1909633 0 17696365 A G
2 rs574724 0 17696368 T C
我想删除第三行。问题是字母系列是可变的,因此在其他地方,数据可能如下所示:
2 rs113308 0 17683654 CCTTT C
或这个:
2 rs103371 0 17667279 TG T
所以 - 基本上,需要删除最后两列中包含超过 2 个字符的任何行,理想情况下,我的数据集将如下所示:
2 rs121065 0 17696224 T C
2 rs1860485 0 17696230 T C
2 rs1909633 0 17696365 A G
2 rs574724 0 17696368 T C
任何建议都非常感谢!