我将深入解释我的编程问题:我有两个文件;文件 #1 是基因注释文件,文件 #2 是按碱基位置文件计数的文件(只是试图为问题提供一些上下文)。
我想在第 6 列中有“+”的行中提取“start_codon”位置,然后转到文件#2 中的那个位置。例如,我想从文件 #1 中的第 3 列中提取 954,然后转到文件 #2 中的第 954 行。然后,我想计算文件 #2 中第 954 行上方产生 70 或更大计数值的行数。
File#1
Chromosome exon 337 774 0.0 - . gene_id "A";
Chromosome start_codon 954 956 0.0 + 0 gene_id "B";
Chromosome stop_codon 2502 2504 0.0 + 0 gene_id "B";
File#2
. .
. .
942 71
943 63
944 88
945 80
946 80
947 85
948 86
949 97
950 97
951 97
952 104
953 105
954 104
955 108
我的最终输出文件将是gene_id 的制表符分隔文件,后跟产生70 或更大计数值的行数。对于我给出的示例文件,输出如下:
Gene_id Count_before_start_codon
B 10
我想遍历大文件以生成一个长输出文件。
谢谢,我希望这很清楚。我很感激任何指导!