6

我正在构建一个使用 XPath 分析 HTML 的命令行 php 抓取应用程序 - 问题是每次在循环中加载一个新的 DOMXPath 类实例时,我都会遇到大约等于正在加载的 XML 大小的内存损失. 该脚本运行并运行,慢慢地建立内存使用量,直到达到限制并退出。

我尝试过强制垃圾收集,gc_collect_cycles()但 PHP 仍然没有从旧的 Xpath 请求中取回内存。确实 DOMXPath 类的定义似乎没有包含析构函数?

DOMXPath所以我的问题是......在我已经提取了必要的数据之后,有没有办法强制清理垃圾?在类实例上使用 unset 可以预见地没有任何作用。

代码没什么特别的,只是标准的 Xpath 东西:

//Loaded outside of loop
$this->dom = new DOMDocument(); 

//Inside Loop
$this->dom->loadHTML($output);  
$xpath = new DOMXPath($this->dom);
$nodes = $xpath->query("//span[@class='ckass']");

//unset($this->dom) and unset($xpath) doesn't seem to have any effect

正如您在上面看到的,我将一个新DOMDocument类的实例化保留在循环之外,尽管这似乎并没有提高性能。我什至尝试将$xpath类实例从循环中取出并直接使用该方法将 DOM 加载到 Xpath 中__constructor,内存损失是相同的。

4

2 回答 2

3

看到这个答案是她多年没有定论,终于更新了!我现在遇到了类似的问题,结果发现DOMXPath只是泄漏了内存,你无法控制它。到目前为止,我还没有搜索过是否在 bug.php.net 上报告过这个问题(这对以后编辑很有用)。

我发现该问题的“有效”解决方案只是解决方法。基本思想是将DOMNodeList Traversable返回的 by替换为DOMXPath::query()包含相同节点的不同的。

一个最合适的解决方法是使用DOMXPathElementsIterator它允许您查询问题中的具体 xpath 表达式而不会出现内存泄漏:

$nodes = new DOMXPathElementsIterator($this->dom, "//span[@class='ckass']");

foreach ($nodes as $span) {
   ...
}

此类现在是Iterator-Garden 开发版本的一部分,并且是所有DOMElement$nodes的迭代器。<span>

此解决方法的缺点是 xpath 结果仅限于SimpleXMLElement::xpath()结果(这与 不同DOMXPath::query()),因为它在内部用于防止内存泄漏。

DOMNodeListIterator另一种DOMNodeList选择是使用DOMDocument::getElementsByTagname(). 然而,这些迭代很慢。

希望这有一些用处,即使这个问题真的很老了。它在类似的情况下帮助了我。


仅当不再引用(使用)对象时,调用垃圾回收清理循环才有意义。

例如,如果您再次DOMXPath为相同DOMDocument的对象创建一个新对象(请记住它与DOMDocument仍然存在的对象相关联),听起来就像是您的内存“泄漏”。你只是使用越来越多的内存。

相反,您可以重复使用现有DOMXPath对象,因为您一直重复使用该DOMDocument对象。试试看:

//Loaded outside of loop
$this->dom = new DOMDocument(); 
$xpath = new DOMXPath($this->dom);

//Inside Loop
$this->dom->loadHTML($output);  
$nodes = $xpath->query("//span[@class='ckass']");
于 2011-11-18T20:57:43.777 回答
2

如果您使用libxml_use_internal_errors(true);的是内存泄漏的原因,因为错误列表正在增长。

使用libxml_clear_errors();或检查此答案以获取详细信息。

于 2017-08-03T12:21:24.413 回答