0

我有一个(30GB)的 XML 文件,其中包含 2 类数据,第 1 类的数据有相应的

<id="11" class="1" bestmatchingid="50" Body="abc"> </id>
.
.
.
<id="9999890" class="2" MatchingClass1Id="11" Body="xyz"></id>

现在的任务是提取 class1 的主体和相应的 class 2 的主体,例如

class1's id(11)== MatchingClass1Id of class2(which is 9999890)

我通过在 Python 中使用字符串比较来完成同样的工作......考虑到我的文件大小是 30 GB,在 Python 中是否有更有效的方法来完成同样的工作

4

2 回答 2

4

使用LXMLiterparse功能。有关如何在非常大的文件上使用它的信息,请参阅IBM DeveloperWorks 文章。

于 2012-04-05T09:54:15.517 回答
-1

lxml 适用于您的目的。另外,由于您是初学者..所以要了解基本知识,请参阅教程:

http://infohost.nmt.edu/tcc/help/pubs/pylxml/web/etree-view.html

所有 iterparse 方法都是解决您的问题的有效方法

于 2012-04-05T19:50:23.840 回答