我有一个基因列表,包括它们的开始和结束。这些基因通常有不同的亚型,所以我想创建一个具有最小起始值和最大结束值的新文件。
所以:
输入:
Chromosome Start position (bp) Stop position (bp) Gene name
1 67000041 67208778 SGIP1
1 48999844 50489468 AGBL4
1 16767256 16785385 NECAP2
1 25072044 25167428 CLIC4
1 33547850 33585783 ADC
1 16767256 16785385 NECAP2
1 16767256 16785491 NECAP2
1 8384389 8404073 SLC45A1
1 92149295 92327088 TGFBR3
1 100661810 100715376 DBT
1 92149295 92327088 TGFBR3
1 92149295 92327088 TGFBR3
1 92351836 92351836 TGFBR3
1 226420201 226496888 LIN9
1 226420000 226485422 LIN9
1 226420201 226496888 LIN9
期望的输出:
Chromosome Start position (bp) Stop position (bp) Gene name
1 67000041 67208778 SGIP1
1 48999844 50489468 AGBL4
1 16767256 16785491 NECAP2
1 25072044 25167428 CLIC4
1 33547850 33585783 ADC
1 8384389 8404073 SLC45A1
1 92149295 92351836 TGFBR3
1 100661810 100715376 DBT
1 226420000 226496888 LIN9
本质上,我想分别获取每个基因并获得 MIN{Start position (bp)} 和 MAX {Stop position (bp)}。
是否有 grep/awk 技巧可以做到这一点?如有必要,我什至会使用 Excel 技巧!
谢谢