2

我在 Python 中有一个带有 minidom 解析器的 MemoryError。我正在读取 8000 个小文件(大多数小于 50 Kb),并且在读取 2500 次后出现此错误......`

Traceback (most recent call last): 

 File "C:\eclipse\plugins\org.python.pydev.debug_2.4.0.2012020116\pysrc\pydevd.py", line 1307, in <module>
    debugger.run(setup['file'], None, None)
  File "C:\eclipse\plugins\org.python.pydev.debug_2.4.0.2012020116\pysrc\pydevd.py", line 1060, in run
    pydev_imports.execfile(file, globals, locals) #execute the script
  File "C:\Users\calculator_2012.py", line 81, in <module>
    file_content, economicFlow, elementaryFlow = XML_reader(spoldFile)
  File "C:\Users\XML_reader.py", line 10, in XML_reader
    xmltree = parse(spold_filename)
  File "C:\Python27\lib\xml\dom\minidom.py", line 1914, in parse
    return expatbuilder.parse(file)
  File "C:\Python27\lib\xml\dom\expatbuilder.py", line 924, in parse
    result = builder.parseFile(fp)
  File "C:\Python27\lib\xml\dom\expatbuilder.py", line 207, in parseFile
    parser.Parse(buffer, 0)
  File "C:\Python27\lib\xml\dom\expatbuilder.py", line 294, in character_data_handler_cdata
    _append_child(self.curNode, node)
  File "C:\Python27\lib\xml\dom\minidom.py", line 274, in _append_child
    def _append_child(self, node):
  File "C:\eclipse\plugins\org.python.pydev.debug_2.4.0.2012020116\pysrc\pydevd.py", line 942, in trace_dispatch
    traceback.print_exc()
  File "C:\Python27\lib\traceback.py", line 232, in print_exc
    print_exception(etype, value, tb, limit, file)
MemoryError

有没有人可以建议“无内存泄漏”解析器?

4

4 回答 4

3

我还建议使用内置的 cElementTree。Minidom 有很多问题:/

否则 lxml 也相当不错,并且有更多的功能。

于 2012-06-25T11:57:32.817 回答
2

我似乎minidom可以占用很多内存。

我尝试解析一个 56MB 的文件,读取它需要 8G 内存。

你算了。。

于 2013-08-23T03:28:33.013 回答
1

libxml2 更快并且没有内存泄漏,但它太 C 了,没有任何好处,而且文档很糟糕

lxml 是 libxm2 和 etree 模块之上的一层,因此这是具有 libxml2 性能的 python 方式

http://lxml.de/

编辑:错别字

于 2012-06-25T11:29:23.157 回答
0

好吧,回溯表明您正在 PyDev 调试器中运行,那么,您是否尝试在没有调试器的情况下在 Eclipse 中运行它?

于 2012-06-25T11:17:31.600 回答