1

如何筛选特定网站。我需要登录一个网站,然后抓取内部信息。怎么可能做到这一点?

请指导我。

重复:如何在 PHP 中实现网络爬虫?

4

6 回答 6

1
Zend_Http_Client and Zend_Dom_Query
于 2009-02-06T12:43:38.507 回答
0

你想看看curl函数——它们会让你从另一个网站获取页面。您可以使用 cookie 或 HTTP 身份验证先登录,然后获取所需的页面,具体取决于您登录的站点。

一旦你有了这个页面,你最好使用正则表达式来抓取你想要的数据。

于 2009-02-06T11:17:28.213 回答
0

你应该看看 curl。

于 2009-02-06T11:17:38.773 回答
0

您可能还想看看BeautifulSoup,它是一个 Python 库,应该非常擅长使糟糕的 HTML 可解析。它的目标是像屏幕抓取这样的事情。

我不知道从 PHP 调用会有多容易。

于 2009-02-06T11:23:22.037 回答
0

您还可以查看http://php.net/dom

于 2009-02-06T12:50:54.780 回答
0

卷曲,一旦进入,使用 QueryPath php 库。(querypath.org) 你可以像在 JQuery 中一样访问 dom 元素,通过 CSS 选择器,还有方法链......

比只使用 php 的原生 xml 函数要好得多。

它也可以作为 drupal 扩展,但我想你可以在任何 php 项目中实现它。

于 2010-08-18T22:06:32.893 回答