python - 比较多个文件中的值

Question

我有两个文件，每个文件有 3 列和 n 行（每个文件中的行数不同）。

每个看起来像这样：

file1
chr1    12  32 
chr1    14  30
chr3    10002  89000 
chrx    5678900   987654

和这个：

file2
chr1    8   15
chr1    10  14
chr1    32  34

每个文件中的第二列和第三列代表起始值和结束值，而第一列是名称。

因此，如果（文件 1）第一列中的值与文件 2 第一列中的值匹配，则脚本应计算它们是否存在重叠（文件 1 中第 2 列和第 3 列中的值范围的任何重叠程度与文件 2 的第 2 列和第 3 列中的值范围）文件 2 中文件 1 的第二列和第三列中的值范围。

需要这样的输出：

regions from file1 present in file 2

chr1    12  32   present 
chr1    14  30   present 
chr3    10002  89000  absent
chrx    5678900   987654 absent

有关 awk 操作或 python 脚本的任何建议......请帮助。

score 3 · Accepted Answer

读取file2以创建映射：名称 -> 间隔，即结果为：ranges = {'chr1': [[8, 15], [10, 14], [32, 34]]}. 如果每个名称有很多间隔，那么作为优化，您可以合并它们：ranges = {'chr1': [[8, 15], [32, 34]]}.
定义overlap(r1, r2)返回两个区间是否重叠的r1函数。r2指定边缘是否包含在重叠中。
对于每一行，file1找出是否存在重叠并打印适当的输出。

python - 比较多个文件中的值

1 回答 1

Related

Reference