2

我正在使用以下代码来解析相当大的 xml 文件(> 50GB):

use XML::Parser;

my $p = new XML::Parser(
    'Handlers' => {
        'Start' => \&handle_start,
        'End'   => \&handle_end,            
        'Char'  => \&handle_char,
    }
);
$p->parsefile( 'source.xml' );

...

sub handle_start {
    ...
}

问题是解析需要很长时间,我想获得某种进度表。

我更喜欢一种不需要首先扫描整个文件来获取总数的方法 - 例如,输入文件中的当前位置将是完美的,因为我可以简单地检查文件的开始总大小,然后在handle_start() 检查当前位置,并打印它。

4

1 回答 1

7

您可能正在寻找current_byte解析器对象的方法,该方法记录在XML::Parser::Expat中。

因此,您可以在开始解析之前将文件的大小保存在全局中:

my $file_size = -s $input_file;

然后像这样计算处理程序中的进度:

sub handle_start {
    my($parser, $element) = @_;

    my $pos = $parser->current_byte;
    printf("%-20s %5.1f%%\n", $element, $pos * 100 / $file_size);
}
于 2010-07-18T23:11:17.283 回答