xml - 如何从巨大的 xml 文件中删除重复项，但在 perl 中使用 XML::Twig 保留具有最新“changedate”属性的文件？

Question

我有以下巨大的 XML 文件：

<?xml version="1.0" encoding="utf-16"?>
<!DOCTYPE tmx SYSTEM "56.dtd">
<body>
<tu changedate="20130625T175037Z"">
  <tuv xml:lang="pt-pt">
    <prop type="x-context-pre">&lt;seg&gt;Some text.&lt;/seg&gt;</prop>
    <prop type="x-context-post">&lt;seg&gt;Other text.&lt;/seg&gt;</prop>
    <seg>The text I'm interested.</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>And it's translation in italian.</seg>
  </tuv>
 </tu> 

 .... followed by other <tu>'s
</body>

我正在使用哈希将每个“seg”内容与其更改日期“关联”，以便我可以使用处理程序检查“seg”是否已经存在，然后查看找到的版本是否较旧，如果是，删除它。这种方法的问题是，如果找到的版本较新，则无法删除在 xml 文件中解析的旧版本。这是我到目前为止的代码：

use 5.010;

use strict;
use warnings;

use XML::Twig;
use Digest::MD5 qw(md5);

my $filename = 'pt_PT-it_IT.tmx';
my $out_filename = 'out.xml';
open my $out, '>', $out_filename;
binmode $out;

my $original_twig = new XML::Twig (pretty_print => 'indented', twig_handlers => {tu => \&original_tu});
$original_twig->parsefile($filename);
$original_twig->flush($out);
close $out;

{ my %md5;
sub original_tu {
my($twig, $original_tu) = @_;
#print $original_tu->text;
my $original_seg = $original_tu->first_child('tuv')->first_child('seg')->text;

my $original_changedate = $original_tu->att('changedate');
$original_changedate = substr $original_changedate, 0, 8;
$hash = md5(original_seg);
if (exists($md5{$hash})) {
    if (($md5{$hash}) gt $original_changedate) {
        print "================================\n";
            print "DELETED\n";
            print $original_seg;
            print "\n BECAUSE ORIGINAL DATE: ";
            print $original_changedate;
            print " IS OLDER THAN THE FOUND ONE: ";
            print $other_changedate;
            print "\n=================================\n";
            $original_tu->delete(); 

        }


    }
else
    $md5{$hash} = $original_changedate;
}

}

提前感谢任何关于如何（概括）删除巨大（700 MB）XML文件中具有最新值'changedate'的重复项的任何提示。

谢谢！

score 2 · Accepted Answer

我并不完全清楚它们是如何相关的tu。seg因此，我很难为您提供可能无法满足您要求的代码。

所以只是一点点评论，我相信你已经考虑过：我认为你将不得不在 2 遍中执行此操作：

第一次通过识别每个最近的更改seg，将此数据存储在哈希{ md5 => date }中，对于所有tu，您创建的方式$md5{$hash}
然后在 2cd pass 中删除所有与存储tu值changedate较低（或只是不同）的值。

希望散列足够小以适合内存。它比 1-pass 过程更慢（并且不太令人满意！），但它应该可以工作。

xml - 如何从巨大的 xml 文件中删除重复项，但在 perl 中使用 XML::Twig 保留具有最新“changedate”属性的文件？

1 回答 1

Related

Reference