我正在解析 XML Wikipedia 数据转储,我想拉出一个页面并将其制成一个新的 XML 文档,其中包含页面的精简版本。例如,对于每个页面,我只对标题、id、时间戳、用户名和文本感兴趣。
这是一个完整的维基百科页面:
<page>
<title>AccessibleComputing</title>
<ns>0</ns>
<id>10</id>
<redirect title="Computer accessibility" />
<revision>
<id>381202555</id>
<timestamp>2010-08-26T22:38:36Z</timestamp>
<contributor>
<username>OlEnglish</username>
<id>7181920</id>
</contributor>
<minor />
<comment>[[Help:Reverting|Reverted]] edits by [[Special:Contributions/76.28.186.133|76.28.186.133]] ([[User talk:76.28.186.133|talk]]) to last version by Gurch</comment>
<text xml:space="preserve">#REDIRECT [[Computer accessibility]] {{R from CamelCase}}</text>
<sha1 />
</revision>
</page>
剥离完成后我想得到的结果是这样的:
<page>
<title>AccessibleComputing</title>
<id>10</id>
<revision>
<timestamp>2010-08-26T22:38:36Z</timestamp>
<contributor>
<username>OlEnglish</username>
</contributor>
<text xml:space="preserve">#REDIRECT [[Computer accessibility]] {{R from CamelCase}}</text>
</revision>
</page>
由于这些文档的大小,我知道我不能使用 DOM 来处理这个问题。我知道如何设置 SAX 解析器,但是在解析文档时构建新 XML 文件的最佳方法是什么?
谢谢