xml - 如何将 Wikipedia XML 转储解析为每行一个文档？

Question

对于一个项目，我需要将 Wikipedia XML 转储转换为纯文本语料库文件，该文件每行保留一个文档。我找到了几个工具来将 XML 转储拆分为几个不同的文件，但这不是所需的格式，我担心管理数百万个小文件会给我已经很慢的 HDD 增加不必要的工作。

对此有什么好的程序建议吗？

score 0 · Accepted Answer

您可以使用任何流式 XML 解析器逐页读取转储文件，从页面文本中去除换行符并将其打印出来。如果您告诉我们您使用的语言，我们或许可以提供更具体的建议。

（如果你使用 Perl，我看到很多人推荐 XML::Twig 模块，但即使是普通的旧 XML::Parser 也可以做到这一点。）

1 回答 1