1

我开始在 CakePHP 2.2 中构建一个网络爬虫。脚本正在抓取的页面是 HTML 页面,我需要解析它们以获取我的值。

尝试了一些不同的解决方案,并查看了一些开源的东西,但不确定最好的方法是什么。

要弄清楚我应该使用哪种方法,我需要你的帮助。

4

1 回答 1

2

DomDocument 是您的最佳选择。该模块的 php.net 文档中有一些不错的示例。如果您可以使用其他语言,例如 ruby​​,我对 hpricot 有很好的经验,这是一个类似于 jQuery 的用于解析 html 的库。

这个问题与Robust and Mature HTML Parser for PHP有关

于 2012-07-24T19:09:28.117 回答