3

我试图从这样的文本文件中提取每一行的第一个完整数字:

8 gcaggcaaactgcgataataaaaggctgtttcaacagcggagtggattgt 1.5307684822361e-176
11 tttacccagtgagtttgaagcaaggatcttttagtttaccgaaaaatgag 3.22210306380202e-293
14 agcaatagcgcgaacagacaacctcatcagtctaccgcgcaccctttccc 1.32107737963584e-52
20 agtgacagggaaaggcgatcgcggctttacgatcagagatcggtgtcggt 0.942504155078175
30 tccggagactttcgattgcatgcaattcaccatcataccctcttgccctc 0
45 actgagcccctgacgctggccagtgtagcgctgtgaagtcccctctcagg 9.49147409471272e-307
53 gaaccgagcgatcgctgctgccattgtctcgccttctgccgaggaatgcc 2.15850303270505e-28

在以下代码中使用正则表达式:

my $id = undef;
while (my $line = <INFILE>){
  chomp $line;
  if ($line =~ /\A([0-9]+)/){
      $id = $1;
  }
print OUTFILE "$id\n";
$line = <INFILE>;
chomp $line;
}

我得到的输出只包括其他每一行:

8
14
30
53

我试过在不匹配的情况下打印出每一行,一切都在那里。一旦我添加了正则表达式,它就会跳过每一行。有什么想法为什么要这样做?

4

2 回答 2

4

您从INFILE句柄读取两次,一次在while条件中,一次在循环结束时。

删除,最后阅读:

my $id = undef;
while (my $line = <INFILE>){
  chomp $line;
  if ($line =~ /\A([0-9]+)/){
      $id = $1;
  }
  print OUTFILE "$id\n";
}
于 2012-07-19T16:01:10.963 回答
1

您正在跳过文件行

   while (my $line = <INFILE>) {   # Reading line once
       chomp $line;   
       if ($line =~ /\A([0-9]+)/){       
          $id = $1;   
       } 
       print OUTFILE "$id\n";
       $line = <INFILE>;   # Reading line again!!!!!

   }

因为你在打电话

   $line = <INFILE>; 

两次。您不需要$line = <INFILE>在代码中包含第二个。

于 2012-07-19T16:01:28.463 回答