1

我在这部分代码上花了几个小时,但仍然不知道如何使它工作,所以任何建议都会很棒!


我有 2 个文件,list1.txt 和 dictionary.txt。list1.txt 看起来像

rs1
rs2
rs4
rs5

而 dictionary.txt 看起来像

rs1 1 A G
rs2 2 C T
rs3 3 A A
rs4 4 G G

列由空格分隔 - 有四列。我想要做的是对于list1.txt 中的每个单词,在dictionary.txt 中搜索该单词,如果存在,将dictionary.txt 中的整行打印到第三个文件中。如果dictionary.txt 中不存在该单词,只需打印该单词即可。

因此,如果我要使用上面列出的文件运行下面的程序,我的结果应该如下所示

rs1 1 A G
rs2 2 C T
rs4 4 G G
rs5

上述程序:

open(LIST1, '<', 'test_chr1_22.txt') or die "Could not open chr1_22.txt: $!";

open(OUTPUT, '>', 'test_chr1_22_all_info.txt');

foreach my $line1 (<LIST1>)
{
        foreach my $line (@DICT)
        {
            if ($line =~ m/"$line1"/)
            {
                print OUTPUT"$line\n";
            }
        }
}

这是我现在拥有的代码。我知道它没有我的第二个条件,即如果字典中不存在该单词,则只需打印该单词。但是,我什至无法解决第一部分,如果单词在字典中,则打印该行。我从这个空白文本文件中得到什么。有谁知道发生了什么?

4

1 回答 1

3

m/"$line1"/错误的原因有很多:

  • 您匹配的所有字符串都不包含",因此这永远不会匹配。
  • 您不会转义 的内容$line1以从任意文本形成正则表达式。
  • 如果在字符串的开头找到文本,您只想匹配。
  • 如果文本是整个字段,您只想匹配。

无论如何,一旦您使用循环和哈希查找替换效率极低的嵌套循环,对正则表达式匹配的需求就消失了。

my %dict;
while (<$DICT>) {
   my ($key) = split;
   $dict{$key} = $_;
}

while (<$INPUT>) {
   my ($key) = split;
   print $dict{$key} // $_;
}
于 2012-12-03T09:22:16.757 回答