performance - Perl 中 unpack 结合 join 的性能

Question

我有一个用 Perl 编写的解析器，它解析固定长度记录的文件。部分记录由几个字符串（也是固定长度）组成，仅由数字组成。字符串中的每个字符都被编码为数字，而不是 ASCII 字符。即，如果我有字符串 12345，它被编码为 01 02 03 04 05（而不是 31 32 33 34 35）。

我用 unpack 解析记录，这个特定部分被解包为@array = unpack "C44", $s. 然后我用简单的连接恢复所需的字符串，比如$m = join("", @array).

我想知道这是否是解码的最佳方式。文件很大，有数百万条记录，显然我试图看看是否可以优化。Profiler 显示大部分时间都花在了解析记录上（即，读、写和其他东西都不是问题），而解析大部分时间都花在了这些连接上。我记得从其他来源那里加入是非常有效的操作。有什么想法可以加快代码速度还是已经达到最佳状态？也许有可能以某种巧妙的方式避免这个中间数组，例如，改用打包/解包组合？

编辑：代码示例

我尝试优化的代码如下所示：

    while (read(READ, $buf, $rec_l) == $rec_l) {
        my @s = unpack "A24 C44 H8", $buf;
        my $msisdn = substr $s[0], 0, 11;
        my $address = join("", @s[4..14]);
        my $imsi = join("", @s[25..39]);
        my $ts = localtime(hex($s[45]));
    }

score 6 · Accepted Answer

未经测试（当我不那么忙时我会回来编辑）但是如果我正确地完成了所有的数学运算，这应该可以工作，并且更快：

my ($msisdn, $address, $imsi, $ts) = 
    unpack "A11 x13 x3 a10 x10 a15 x5 N", $buf;
$address |= "0" x 10;
$imsi |= "0" x 15
$ts = localtime($ts);

score 0 · Accepted Answer

与 Perl 一样，速度越快可读性越差 :-)

join("", unpack("C44", $s))

我不相信这种改变会加速你的代码。一切都取决于您调用 join 函数读取整个文件的频率。如果您正在分块工作，请尝试增加它们的大小。如果您在解包和加入此数组之间进行一些操作，请尝试将它们与 map 操作对齐。如果您发布源代码，则更容易识别瓶颈。

score 0 · Accepted Answer

我是一个打包/解包新手，但是如何通过更改示例代码来跳过连接，如下所示：

my $m = unpack "H*", $s ;

快速测试：

#!/usr/bin/perl

use strict ;
use Test::More tests => 1 ;

is( unpack("H*", "\x12\x34\x56"),"123456");

performance - Perl 中 unpack 结合 join 的性能

3 回答 3

Related

Reference