我开始在 CakePHP 2.2 中构建一个网络爬虫。脚本正在抓取的页面是 HTML 页面,我需要解析它们以获取我的值。
尝试了一些不同的解决方案,并查看了一些开源的东西,但不确定最好的方法是什么。
- DomDocument::loadHTML() - 看起来这是解决方案,但不是 100% 确定。
- 正则表达式 - 有点难以维护
- 简单的 HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component(为 Cake 1.3 制作,以及它自己的代码,是的,我不喜欢它 -并且有严重的内存泄漏( s) )
要弄清楚我应该使用哪种方法,我需要你的帮助。