我正在尝试.xml
使用 R 从 Wikipedia Dumps 读取和处理 ~5.8GB。我没有那么多 RAM,所以我想分块处理它。(目前使用时xml2::read_xml
完全阻塞了我的电脑)
该文件xml
包含每个维基百科页面的一个元素,如下所示:
<page>
<title>AccessibleComputing</title>
<ns>0</ns>
<id>10</id>
<redirect title="Computer accessibility" />
<revision>
<id>631144794</id>
<parentid>381202555</parentid>
<timestamp>2014-10-26T04:50:23Z</timestamp>
<contributor>
<username>Paine Ellsworth</username>
<id>9092818</id>
</contributor>
<comment>add [[WP:RCAT|rcat]]s</comment>
<model>wikitext</model>
<format>text/x-wiki</format>
<text xml:space="preserve">#REDIRECT [[Computer accessibility]]
{{Redr|move|from CamelCase|up}}</text>
<sha1>4ro7vvppa5kmm0o1egfjztzcwd0vabw</sha1>
</revision>
</page>
可以在此处找到该文件的示例
从我的角度来看,我认为可以分块读取它,例如文件中的每页一页。Ans 将每个已处理page
的元素保存为.csv
文件中的一行。
我想要一个包含以下列的data.frame。
id、标题和文本。
我该怎么做才能.xml
分块阅读?