html - 在 Cakephp 中解析 HTML

Question

我开始在 CakePHP 2.2 中构建一个网络爬虫。脚本正在抓取的页面是 HTML 页面，我需要解析它们以获取我的值。

尝试了一些不同的解决方案，并查看了一些开源的东西，但不确定最好的方法是什么。

DomDocument::loadHTML() - 看起来这是解决方案，但不是 100% 确定。
正则表达式 - 有点难以维护
简单的 HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component（为 Cake 1.3 制作，以及它自己的代码，是的，我不喜欢它 -并且有严重的内存泄漏（ s) )

要弄清楚我应该使用哪种方法，我需要你的帮助。

score 2 · Accepted Answer

DomDocument 是您的最佳选择。该模块的 php.net 文档中有一些不错的示例。如果您可以使用其他语言，例如 ruby，我对 hpricot 有很好的经验，这是一个类似于 jQuery 的用于解析 html 的库。

1 回答 1