我正在尝试解析 stackoverflow 转储文件(Posts.xml-17gb)。它的形式是:
<posts>
<row Id="15228715" PostTypeId="1" />
.
<row Id="15228716" PostTypeId="2" ParentId="1600647" LastActivityDate="2013-03-05T16:13:24.897"/>
</posts>
我必须将每个问题与他们的答案“分组”。基本上找到一个问题 (posttypeid=1) 使用另一行的 parentId 找到它的答案并将其存储在 db 中。
我尝试使用 querypath (DOM) 执行此操作,但它一直在 exiting(139) 。我的猜测是因为文件很大,我的电脑无法处理它,即使交换很大。
我考虑过 xmlreader,但是当我使用 xmlreader 看到它时,程序会多次读取文件(查找问题、寻找答案、重复很多次),因此不可行。我错了吗 ?
还有其他方法/方式吗?
帮助!
这是一次性解析。