如何筛选特定网站。我需要登录一个网站,然后抓取内部信息。怎么可能做到这一点?
请指导我。
Zend_Http_Client and Zend_Dom_Query
你应该看看 curl。
您可能还想看看BeautifulSoup,它是一个 Python 库,应该非常擅长使糟糕的 HTML 可解析。它的目标是像屏幕抓取这样的事情。
我不知道从 PHP 调用会有多容易。
您还可以查看http://php.net/dom
卷曲,一旦进入,使用 QueryPath php 库。(querypath.org) 你可以像在 JQuery 中一样访问 dom 元素,通过 CSS 选择器,还有方法链......
比只使用 php 的原生 xml 函数要好得多。
它也可以作为 drupal 扩展,但我想你可以在任何 php 项目中实现它。