0

我有两个文件,每个文件有 3 列和 n 行(每个文件中的行数不同)。

每个看起来像这样:

file1
chr1    12  32 
chr1    14  30
chr3    10002  89000 
chrx    5678900   987654

和这个:

file2
chr1    8   15
chr1    10  14
chr1    32  34

每个文件中的第二列和第三列代表起始值和结束值,而第一列是名称。

因此,如果(文件 1)第一列中的值与文件 2 第一列中的值匹配,则脚本应计算它们是否存在重叠(文件 1 中第 2 列和第 3 列中的值范围的任何重叠程度与文件 2 的第 2 列和第 3 列中的值范围)文件 2 中文件 1 的第二列和第三列中的值范围。

需要这样的输出:

regions from file1 present in file 2

chr1    12  32   present 
chr1    14  30   present 
chr3    10002  89000  absent
chrx    5678900   987654 absent

有关 awk 操作或 python 脚本的任何建议......请帮助。

4

1 回答 1

3
  1. 读取file2以创建映射:名称 -> 间隔,即结果为:ranges = {'chr1': [[8, 15], [10, 14], [32, 34]]}. 如果每个名称有很多间隔,那么作为优化,您可以合并它们:ranges = {'chr1': [[8, 15], [32, 34]]}.

  2. 定义overlap(r1, r2)返回两个区间是否重叠的r1函数。r2指定边缘是否包含在重叠中。

  3. 对于每一行,file1找出是否存在重叠并打印适当的输出。

于 2012-05-24T14:22:39.247 回答