我有一个测序数据文件,其中包含来自基因组的碱基对位置,如下例所示:
chr1 814 G A 0.5
chr1 815 T A 0.3
chr1 816 C G 0.2
chr2 315 A T 0.3
chr2 319 T C 0.8
chr2 340 G C 0.3
chr4 514 A G 0.5
我想比较由第 2 列中找到的 bp 位置定义的某些组。然后我想要匹配区域第 5 列中数字的平均值。
因此,使用上面的示例,假设我正在寻找跨越 chr1 810-820 和 chr2 310-330 的所有样本的第 5 列的平均值。前五行应该被识别,它们的第 5 列数应该被平均,等于 0.42。
我尝试创建一个范围数组,然后使用 awk 调用这些位置,但没有成功。提前致谢。