2

我需要解析几个大尺寸的 XML 文件(一个约为 8GB,其他每个约为 4MB)并将它们合并。由于内存和时间问题,SAX 和 SAXTie::File都不适合,我决定尝试 Twig。

假设每个 XML 文件由如下几个元素组成:

<class name=math>
     <student>luke1</student>
     ... (a very very long list of student)
   <student>luke8000000</student>
</class>
<class name=english>
   <student>mary1</student>
     ...
   <student>mary1000000</student>
</class>

如您所见,即使我使用TwigRoots => {"class[\@name='english']" => \&counter}我仍然需要等待很长时间才能开始解析 Twig,class=english因为它需要遍历class=math第一行的每一行(如果不需要遍历每一行,请纠正我)。

有没有办法让 Twig 从行号开始解析,而不是从文件的开头?我可以得到<class name = english>使用 grep 的行号,这要快得多。

提前致谢。

4

2 回答 2

3

也许这个例子会给你一些替代策略的想法。特别是,您可以将这个想法index_file与 Zoul 关于在将文件句柄传递给XML::Twig.

use strict;
use warnings;

# Index the XML file, storing start and end positions
# for each class in the document. You pay this cost only once.
sub index_file {
    local @ARGV = (shift);
    my (%index, $prev);
    while (<>){
        if ( /^<class name=(\w+)>/ ) {
            my $start = tell() - length();
            $index{$1} = { start => $start, end => undef };

            $index{$prev}{end} = $start - 1 if defined $prev;
            $prev = $1;
        }        
        $index{$prev}{end} = tell if eof;
    }
    return \%index;
}

# Use the index to retrieve the XML for a particular class.
# This allows you to jump quickly to any section of interest.
# It assumes that the sections of the XML document are small enough
# to be held in memory.
sub get_section {
    my ($file_name, $class_name, $index) = @_;
    my $ind = $index->{$class_name};

    open(my $fh, '<', $file_name) or die $!;    
    seek $fh, $ind->{start}, 0;
    read( $fh, my $xml_section, $ind->{end} - $ind->{start} );

    return $xml_section;
}

# Example usage.
sub main {
    my ($file_name) = @_;
    my $index = index_file($file_name);
    for my $cn (keys %$index){
        # Process only sections of interest.
        next unless $cn eq 'math' or $cn eq 'english';
        my $xml = get_section($file_name, $cn, $index);

        # Pass off to XML::Twig or whatever.
        print $xml;
    }
}

main(@ARGV);
于 2010-08-02T13:17:15.793 回答
1

接受一个的parse方法,这样你就可以自己寻找正确的路线?构造函数还有一个参数,您可以在其中跳过前n不需要的行。XML::TwigIO::Handleinput_filterXML::Twig

于 2010-08-02T16:37:12.913 回答