0

我想让我的脚本尽可能高效和快速地运行。以下是我创建 HoA 的方式。

use strict; use warnings; open(my $fh, '<', 'file.txt') or die $!;
my %HoA;
while (<$fh>){
    $_=~ s/\r//;
    chomp;
    my @cols = split(/\t/, $_);
    my $key = shift @cols;
    push( @{$HoA{$key}, @cols );
}

说它给出了以下数据结构

%HoA = (
    'C1' => ['1', '3', '3', '3'],
    'C2' => ['3','2'],
    'C3' => ['1','3','3','4','5','5'],
    'C4' => ['3','3','4'],
    'C5' => ['1'],
);

现在假设对于 HoA 中的每个键,我想将它的值(数组)和整个 HoA 传递到一个名为compute.

这是我目前的做法。

foreach my $key ( keys %HoA ) {
    compute($HoA{$key}, \%HoA);  # on the first iteration, this actually passes an aref to [1,3,3,3]
}

显然 $HoA{$key} 已经是该特定 $key 的每个值的数组引用。

如果是这种情况,执行以下操作在效率方面是否有任何优势

push( @{$HoA{$key}, \@cols );

它产生以下数据结构

%HoA = (
    'C1' => [ ['1', '3'], ['3', '3'] ],
    'C2' => [ ['3','2'] ],
    'C3' => [ ['1','3'], ['3','4'], ['5','5'] ],
    'C4' => [ ['3','3','4'] ],
    'C5' => [ ['1'] ],
);

这会让我的脚本运行得更快吗?如果是这样,在这种情况下,我如何将每个键的值(array_ref)传递给子例程?一旦它在子例程中,我如何访问数组中的各个元素而不取消引用子例程中的整个 array_ref?另外,对于 $hash_ref,我如何访问每个 array_ref?

这是我目前拥有的方式

sub compute{
# takes one param: an arrayref
my ($array_ref, $hash_ref) = @_;
    for my $p ( @{ $array_ref) ) {
        # do stuff
    }
    for my $x ( values %{ %hash_ref)) {
        # do stuff
    }
}
4

2 回答 2

1

由于代码中的取消引用,这可能会使您的代码运行速度变慢。此外,您需要展平每个哈希条目指向的数组中包含的数组,如下所示:

my %h = ( a => [ [1, 2], [3, 4] ], b => [ [2, 3], [5, 6] ]); 
my $key = 'a';
my @all_items;
@all_items = map { @$_ } @{$h{$key}};

仅根据经验,在 Perl 中取消引用对象(即数组)的成本可能非常高,因此使用较少引用的第一种方法应该更快。但你实际上可以为这些事情计时。最好的办法是只编写代码,然后在对整个代码进行概要分析后担心真正重要的部分。

于 2013-04-02T02:47:15.977 回答
1

如果是这种情况,执行以下操作在效率方面是否有任何优势

push( @{$HoA{$key}, \@cols );

不,首先正确创建数据结构

push @{ $HoA{$key} }, @cols;    # Copies the number to the anon array.

compute($_, \%HoA) for values %HoA;

比以后重新创建正确的数据结构要好。

push @{ $HoA{$key} }, \@cols;

compute([ map @$_, @$_ ], \%HoA) for values %HoA;  # But so does this.

通过切换,你最终会完成你已经在做的工作的一个适当的超集。


如评论中所述,您正在优化错误的东西。您说您的程序需要 30-40 秒才能运行。即使您将加载文件所需的时间减少到零,您的程序仍然需要 29-39 秒。

于 2013-04-02T03:15:27.900 回答