这是与生物信息学相关的问题,但仍然是一个非常编程的问题。我没有为下面给出的问题在 bash 中建立一些衬里,并想在这里问它。请帮忙。
问题:我有两个文件(制表符分隔)。文件 A 看起来像
chr1 17050255 234916798
chr1 36688211 36840408
chr1 153961765 154156955
chr1 154128722 154194653
chr1 154130378 154156872
chr1 207493679 207819735
这是基因组坐标的列表。
文件 B 在其前 3 列中还包含基因组坐标,在第四列中它有一个名称。
chr1 1709155 1709324 MMM3
chr1 1709155 1709324 Sk-20
chr1 1709608 1709727 ZdaA
chr1 1709608 1709727 ZdaA
chr1 1709608 1709727 ZA
chr1 1709629 1709727 E-1
chr1 1709629 1709727 E-1
chr1 1709629 1709727 E-1
我想要文件 B 的区域(连同第四列)与文件 A 重叠并像这样打印
ChrA StrtA stpA ChrB SrtB StpB Name
文件 A 中的区域首先出现,然后是文件 B 中与它重叠的区域以及文件 B 中第四列的值。
谢谢