1

我编写了一个脚本来解析一个输入文本文件并输出三个新的文本文件。输入文件有一个标题行,三个输出文件中的每一个都省略了该标题行。输出文件的每一行获取每个输入文件行的前三个条目,然后仅获取输入行中的一部分条目。所有文件都是制表符分隔的。

我的问题是我在输出行的末尾不断得到一个额外的空白。在 VIM 中查看时,我可以在输出文件的行尾看到这个空白。在 Excel 中查看时,我看不到这些额外的空格。

以前,使用我的脚本的早期版本,我可以使用 excel 在行尾看到额外的空白,但只能使用“全选”功能。excel 中显示的数据是我的 perl 脚本打印一个数组的结果,我在其中编写了print $outfile "@array". 我在 stackoverflow 的其他地方了解到,打字print "@array"会导致一种插值,它会在我的行中添加空格。此插值产生的空白在 Excel 中不会立即可见,但在使用“全选”突出显示数据时可以看到。因此,我将代码从 更改print $outfile "@array"print $outfile @array. 此更改导致输出文件在每个输出行的末尾仍保留一个空格,该空格在 VIM 中可见但在 excel 中不可见。这就是我卡住的地方。

下面是我的脚本。第一部分只是打开并读取输入文件。然后声明一些数组。接下来,afor loop开始逐行解析输入文件,并将适当的内容推送到适当的数组中。对一个数组进行替换。同样,所有文件都是制表符分隔的。最后,使用 phrasingprint $outfile @array和 not将数组打印到三个输出文件print $outfile "@array"

你看到问题了吗?谢谢!

#!/usr/bin/perl
use strict; use warnings;

die "usage: [ imputed genotype.file ]\n" unless @ARGV == 1;

my $imputed = $ARGV[ 0 ];
open ( my $FILE, "<$imputed" );
my @data  = <$FILE>; 

my @ADD = ();
my @DOM = ();
my @IMP = ();

for ( my $i = 1; $i < scalar @data; $i++ ) ### for each line data[i], and use $i = 1 to
                                           ### skip header, 0 to include it output
    {
     my $line = $data[ $i ];
     chomp $line;

     my @entries = split( '\t', $data[ $i ] );

     push( @ADD, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );
     push( @DOM, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );
     push( @IMP, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );

     for ( my $i = 3; $i < scalar @entries - 1 ; $i+=3 ) ### for each entry per line
         {
          push( @ADD, "$entries[ $i ]\t" );
          push( @DOM, "$entries[ $i + 1 ]\t" );

          if ( $entries[ $i + 2 ] eq 'NA' ) ### to replace any occuring "NA"s with blanks
             {
              $entries[ $i + 2 ] =~ s/NA//; 
             }

          push( @IMP, "$entries[ $i + 2 ]\t" );
          }

    push( @ADD, "\n" ); 
    push( @DOM, "\n" );
    push( @IMP, "\n" ); 

   } ### for loop   

open my $Afile, ">$imputed" . "_ADD.txt" or die $!;
print $Afile @ADD; 
close $Afile;

open my $Dfile, ">$imputed" . "_DOM.txt" or die $!;
print $Dfile @DOM;
close $Dfile;

open my $Ifile, ">$imputed" . "_IMP.txt" or die $!;
print $Ifile @IMP;
close $Ifile;
4

2 回答 2

6

您在数组元素末尾使用 \t 的问题。使用功能

join( "\t", ...) 

反而。

我的意思是,只需创建输出数组,然后使用

print join "\t", @output;

有未经测试的例子:

#!/usr/bin/perl
use strict; use warnings;

die "usage: [ imputed genotype.file ]\n" unless @ARGV == 1;

open my $Afile, ">$imputed" . "_ADD.txt" or die $!;
open my $Dfile, ">$imputed" . "_DOM.txt" or die $!;
open my $Ifile, ">$imputed" . "_IMP.txt" or die $!;

<>; #skip header
while(<>){ 
      chomp;
      my @entries = split( '\t', $_ );

      my @ADD = ();
      my @DOM = ();
      my @IMP = ();

      push( @ADD, $entries[ 0 ], $entries[ 1 ], $entries[ 2 ]);
      push( @DOM, $entries[ 0 ], $entries[ 1 ], $entries[ 2 ]);
      push( @IMP, $entries[ 0 ], $entries[ 1 ], $entries[ 2 ]);

      for ( my $i = 3; $i < scalar @entries - 1 ; $i+=3 ) { ### for each entry per line
          push( @ADD, $entries[ $i ] );
          push( @DOM, $entries[ $i + 1 ] );

      $entries[ $i + 2 ] =~ s/^NA$//; 

          push( @IMP, $entries[ $i + 2 ] );
      }

      print $Afile join( "\t", @ADD) , "\n"; 
      print $Dfile join( "\t", @DOM) , "\n"; 
      print $Ifile join( "\t", @IMP) , "\n"; 

} ### for loop   

close $Afile;
close $Dfile;
close $Ifile;
于 2012-12-21T20:33:37.863 回答
2
push( @ADD, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );

这些行总是在末尾添加一个选项卡,这可能就是您所看到的。另外,考虑使用一个join和一个数组切片而不是字符串插值,例如:

push( @ADD, join( "\t", @entries[0..2] ) );
于 2012-12-21T20:34:09.020 回答