perl - 使用来自另一个文件的信息更改一个文件

Question

我想使用另一个文件中的信息更改 phylip 文件中的名称。phylip 只是一串连续的信息，我想要更改的名称（例如aaaaaaabyd）嵌入其中。像这样

((aaaaaaabyd:0.23400159127856412500,(((aaaaaaaaxv:0.44910864993667892753,aaaaaaaagf:0.51328033054009691849):0.06090419044604544752,((aaaaaaabyc:0.11709094683204501752,aaaaaaafzz:0.04488198976629347720):0.09529995111708353117,((aaaaaaadbn:0.34408087090010841536,aaaaaaaafj:0.47991503739434709930):0.06859184769990583908,((aaaaaaaabk:0.09244297511609228524,aaaaaaaete:0.12568841555837687030):0.28431

（没有新行）

里面的名字是一样的aaaaaaaabk。

另一个文件有信息更改，就像在另一个文件中一样，

aaaaaaaabk;Ciona savignyi
aaaaaaaete;Homo sapiens
aaaaaaaafj;Cryptosporidium hominis
aaaaaaaaad;Strongylocentrotus purpuratus
aaaaaaabyd;Theileria parva
aaaaaaaaaf;Plasmodium vivax

我尝试了很多东西，但这是我得到的最接近的。问题是它只为一个人做，并没有打印出 phylip 文件的其余部分。我需要到达 ((Theileria parva:0.23400159127856412500 等。

open(my $tree, "$ARGV[0]") or die "Failed to open file: $!\n";
open(my $csv,  "$ARGV[0]") or die "Failed to open file: $!\n";
open(my $new_tree, "> raxml_tree.phy");

# Declare variables
my $find;
my $replace;
my $digest;

# put the file of the tree into string variable
my $string = <$tree>;

# open csv file
while (my $line = <$csv>) {

    # aaaaaaaaaa;Ciona savignyi

    if ($line =~ m/(\w+)\;+(\w+\s+\w*)/) {
        $find    = $1;
        $replace = $2;
        $string =~ s/$find/$replace/g;
    }
}
print $new_tree "$string";

close $tree;
close $csv;
close $new_tree;

score 1 · Accepted Answer

关于您自己的代码的一些准则

问题几乎可以肯定是您打开同一个文件$ARGV[0]两次。大概一个应该是`$ARGV[1]
您必须始终 use strict并且use warnings在您编写的每个 Perl 程序的顶部（除非use strict已就位，否则声明变量几乎没有意义）并声明所有变量my尽可能接近它们的第一个使用点。在一开始就在一个块中声明所有变量是不好的形式，因为它使它们都有效地全局化，并且你失去了声明词法变量的大部分优点

您应该使用的三参数形式open，最好将文件名放在die字符串中，这样您就可以看到哪个失败了。所以

open(my $tree, "$ARGV[0]") or die "Failed to open file: $!\n";

变成

open my $tree, '<', $ARGV[0] or die qq{Failed to open "$ARGV[0]" for input: $!\n};

您应该寻找更简单的解决方案，而不是每次都应用正则表达式方法。$line =~ m/(\w+)\;+(\w+\s+\w*)/更整洁chomp，split /;/
当您只需要变量的值时，不应在变量周围使用双引号，因此print $new_tree "$string"应该是print $new_tree $string

与其尝试使用其他文件中的数据（请尝试为问题中的项目使用有用的名称，因为在编写解决方案时很难知道如何称呼它们），最好构建一个包含所有翻译的哈希

该程序将按照您的要求进行。它构建一个由所有哈希键交替组成的正则表达式，然后将该模式的所有出现转换为其相应的名称。仅翻译示例其他文件中的名称：其他名称保持原样

use strict;
use warnings;
use 5.014;  # For non-destructive substitution
use autodie;

my %names;
open my $fh, '<', 'other_file.txt';
while ( <$fh> ) {
  my ($k, $v) = split /;/, s/\s+\z//r;
  $names{$k} = $v;
}

open $fh, '<', 'phylip.txt';
my $data = <$fh>;
close $fh;

my $re = join '|', sort { length $b <=> length $a } keys %names;
$re = qr/(?:$re)/;
$data =~ s/\b($re)\b/$names{$1}/g;

print $data;

输出

((Theileria parva:0.23400159127856412500,(((aaaaaaaaxv:0.44910864993667892753,aaaaaaaagf:0.51328033054009691849):0.06090419044604544752,((aaaaaaabyc:0.11709094683204501752,aaaaaaafzz:0.04488198976629347720):0.09529995111708353117,((aaaaaaadbn:0.34408087090010841536,Cryptosporidium hominis:0.47991503739434709930):0.06859184769990583908,((Ciona savignyi:0.09244297511609228524,Homo sapiens:0.12568841555837687030):0.28431

更新

这是您自己的程序的修订版本，其中考虑了上述几点并修复了错误

use strict;
use warnings;

open my $tree_fh, '<', $ARGV[0] or die qq{Failed to open "$ARGV[0]" for input: $!\n};
my $string = <$tree_fh>;
close $tree_fh;

open my $csv_fh,  '<', $ARGV[1] or die qq{Failed to open "$ARGV[1]" for input: $!\n};
while ( <$csv_fh> ) {
    chomp;
    my ($find, $replace) = split /;/;
    $string =~ s/$find/$replace/g;
}
close $csv_fh;

open my $new_tree_fh, '>', 'raxml_tree.phy' or die qq{Failed to open "raxml_tree.phy" for output: $!\n};
print $new_tree_fh $string;
close $new_tree_fh;

perl - 使用来自另一个文件的信息更改一个文件

1 回答 1

Related

Reference