我正在尝试使用“Parse-MediaWikiDump-1.0.4”和“Wikiprep.pl”脚本来解析 Wikipedia XML Dump。我猜这个脚本适用于ver0.3 Wiki XML Dumps,但不适用于最新的ver0.4 Dumps。我收到以下错误。
无法通过 wikiprep.pl 第 390 行的包“Parse::MediaWikiDump::Pages”定位对象方法“page”。
此外,在“Parse-MediaWikiDump-1.0.4”文档@ http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaWikiDump/Pages.pm下,我阅读了“LIMITATIONS 0.4 版 此类已更新以支持来自 MediaWiki 实例的 0.4 版转储文件,但目前不支持这些文件中可用的任何新信息。”
任何解决方法都将帮助我更上一层楼。
注意:有人可能想知道为什么我们不能直接使用 SAX 或 STAX 解析器,wikipedia dump 是 25GB 加上单个文件,堆栈/内存问题很明显。因此,上面的 perl 脚本解决了这个问题,但目前我遇到了这个版本问题。