0

对于一个项目,我需要将 Wikipedia XML 转储转换为纯文本语料库文件,该文件每行保留一个文档。我找到了几个工具来将 XML 转储拆分为几个不同的文件,但这不是所需的格式,我担心管理数百万个小文件会给我已经很慢的 HDD 增加不必要的工作。

对此有什么好的程序建议吗?

4

1 回答 1

0

您可以使用任何流式 XML 解析器逐页读取转储文件,从页面文本中去除换行符并将其打印出来。如果您告诉我们您使用的语言,我们或许可以提供更具体的建议。

(如果你使用 Perl,我看到很多人推荐 XML::Twig 模块,但即使是普通的旧 XML::Parser 也可以做到这一点。)

于 2013-01-19T11:31:37.170 回答