我试图从字符串格式的(DNA)基因组序列的一条链中分离所有重叠的ORF(包括基因组上的开始(i)和停止(j)位置以及ORF的长度(l));ORF 应以 ATG 开头,具有至少 24 个内部核苷酸 [ACGT] 并以 (TAA|TAG|TGA) 结尾。
通过使用 perl 正则表达式查找最小大小为 45 个碱基的 ORF - 为什么这个正则表达式不起作用,我想出了这个(所以需要调整):
my $genome = $_[0];
my $ATG_count = 0;
my $ORF_count = 0;
my @i = ();
my @j = ();
my @l = ();
my @frames = ();
while ($genome =~ m/ATG/ig) { ### I need to do this to find every ORF starting with ATG, including ORFs which are located inside other ORFs.
$ATG_count++;
my $start = $-[0]+1;
foreach (substr($genome,$-[0]) =~ m/^ATG(?:[ATGC]{3}){8,}(?:TAA|TAG|TGA)/ig) {
my $length = $+[0];
if ($length%3 == 0) { ### I need to do this because sadly, the above regex DOESN'T recover only Strings are dividable by 3. (Why not?!?)
my $stop = $start+$length;
my $readingframe = ($start%3);
push(@i, $start), push(@j, $stop), push(@l, $length), push (@frames, $readingframe);
$ORF_count++;
}
}
}
现在,上面的代码恢复了以 ATG 开头、以 (TAA|TAG|TGA) 结尾并且 >=30 的 ORF - 我已经尝试过了 - 但是恢复的 ORF 有内部终止密码子!
我的问题是如何使恢复的 ORF 在 ATG 后的第一个终止密码子处停止?我想一种可能性是从我的正则表达式的中间部分排除 (TAA|TAG|TGA) ->(?:[ATGC]{3}){8,}
但我该怎么做呢?
提前谢谢了!
编辑:
好的,在尝试了下面的建议之后,我想出了一个解决方案,它可以从给定的基因组序列中恢复所有重叠的 ORFs > = 30 bp,这些序列以 ATG 开头并且没有内部终止密码子:
my $genome = $_[0];
my $ATG_count = 0;
my $ORF_count = 0;
my @i = ();
my @j = ();
my @l = ();
my @frames = ();
while ($genome =~ m/ATG/ig) {
$ATG_count++;
my $start = $-[0]+1;
foreach (substr($genome,$-[0]) =~ m/^ATG(?:[ATGC]{3})*?(?:TAA|TAG|TGA)/ig) {
### This was changed so that it matches "ATG - first(lazy) stop-codon".
my $length = $+[0];
if ($length%3 == 0 && $length >=30) {
### This was changed so that the matches must be >=30 in length.
my $stop = $start+$length;
my $readingframe = ($start%3);
push(@i, $start), push(@j, $stop), push(@l, $length), push (@frames, $readingframe);
$ORF_count++;
}
}
}