0

以下是我的文本文件的格式

3PTTN8KS4DE6CT67NJC0|8269076305|22-FEB-13|-79|352
3PTTN8KS4DE6CT67NJC0|8269076305|22-FEB-13|90.83|387
3PY9MEMG0187YWJMBYA1|1114216131|15-FEB-13|-79|352
3PY9MEMG0187YWJMBYA1|1114216131|15-FEB-13|82.95|387
3Q335ZZGMDHZH9GV7TC1|1884476900|20-FEB-13|-79|352
3Q335ZZGMDHZH9GV7TC1|1884476900|20-FEB-13|89.27|387
3QA1Y5QTETP9N984P6W0|685532706|19-FEB-13|-79|352
3QA1Y5QTETP9N984P6W0|685532706|19-FEB-13|90.83|387
3QB8WFBAM94R4WG1Z5R1|1250545621|15-FEB-13|-79|352
3QB8WFBAM94R4WG1Z5R1|1250545621|15-FEB-13|89.27|387

现在我想将所有这些值读入 perl 哈希。而且这个文件是一个巨大的文件,必须与另一个巨大的文件进行比较。为此,我想将其存储在 perl 哈希中并进行比较。

只需要有关如何使用 perl 哈希保存此数据的帮助。

4

1 回答 1

1

我不清楚您是否需要拆分任何内容,并写下您的问题。只需将该行直接放入哈希中:

#!/usr/bin/env perl

# 
# Usage:  
#
# $ compareFiles.pl foo.txt bar.txt
#

use strict;
use warnings;

my $dataRef;

my $sourceFn = $ARGV[0];
open my $sourceFh, "< $sourceFn";
while (<$sourceFh>) {
    chomp;
    my $sourceKey = $_;
    $dataRef->{$sourceKey} = 1;
}
close $sourceFh;
...

现在您可以通过打开第二个文件流并检查密钥是否存在来比较它:

...
my $compareFn = $ARGV[1];
open my $compareFh, "< $compareFn";
while (<$compareFh>) {
    chomp;
    my $comparisonKey = $_;
    if (defined $dataRef->{$comparisonKey}) {
        print STDOUT "We found [ $comparisonKey ] in both files!\n";
    }
}
close $compareFh;

如果您需要调整键,以便比较某些值的子集,则使用split("|", $_)$sourceKey和拆分$comparisonKey为标记的索引列表,您可以从中构造自定义键,例如

my $sourceFn = $ARGV[0];
open my $sourceFh, "< $sourceFn";
while (<$sourceFh>) {
    chomp;
    my @sourceElements = split("|", $_);
    my $sourceKey = join("_", ($sourceElements[1], $sourceElements[3], $sourceElements[4]));
    $dataRef->{$sourceKey} = 1;
}
close $sourceFh;
...    

等等。

请务必使用与构建所有源键相同的过程来构建比较键。

此外,您希望将您的密钥设计为足够独特,以作为两个或多个输入之间的可靠比较标记。

您基本上需要问自己需要在输入之间进行比较的是什么。您的问题并不清楚,因为那里有很多冗余信息,这使得使用哈希表有点棘手。

于 2013-04-08T09:22:05.540 回答