我想找到样本之间共享的完全相同的基因组间隔(NE_id
)。
我的输入:
chr start_call end_call NE_id
chr1 150 200 NE01
chr1 150 200 NE02
chr2 100 150 NE01
chr2 100 160 NE02
chr3 200 300 NE01
chr3 200 300 NE02
我的预期输出:
chr start_call end_call NE_id
chr1 150 200 NE01, NE02
chr3 200 300 NE01, NE02
在这个例子中,chr2
基因组区间有一些重叠,但是它不对应于完全相同的基因组区间(大小差异 == 10
)。
非常感谢。