我有两个文件,每个文件有 3 列和 n 行(每个文件中的行数不同)。
每个看起来像这样:
file1
chr1 12 32
chr1 14 30
chr3 10002 89000
chrx 5678900 987654
和这个:
file2
chr1 8 15
chr1 10 14
chr1 32 34
每个文件中的第二列和第三列代表起始值和结束值,而第一列是名称。
因此,如果(文件 1)第一列中的值与文件 2 第一列中的值匹配,则脚本应计算它们是否存在重叠(文件 1 中第 2 列和第 3 列中的值范围的任何重叠程度与文件 2 的第 2 列和第 3 列中的值范围)文件 2 中文件 1 的第二列和第三列中的值范围。
需要这样的输出:
regions from file1 present in file 2
chr1 12 32 present
chr1 14 30 present
chr3 10002 89000 absent
chrx 5678900 987654 absent
有关 awk 操作或 python 脚本的任何建议......请帮助。