Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
对于一个项目,我需要将 Wikipedia XML 转储转换为纯文本语料库文件,该文件每行保留一个文档。我找到了几个工具来将 XML 转储拆分为几个不同的文件,但这不是所需的格式,我担心管理数百万个小文件会给我已经很慢的 HDD 增加不必要的工作。
对此有什么好的程序建议吗?
您可以使用任何流式 XML 解析器逐页读取转储文件,从页面文本中去除换行符并将其打印出来。如果您告诉我们您使用的语言,我们或许可以提供更具体的建议。
(如果你使用 Perl,我看到很多人推荐 XML::Twig 模块,但即使是普通的旧 XML::Parser 也可以做到这一点。)