0

我想使用风车或硒来模拟访问网站的浏览器,抓取内容并在分析内容后根据分析进行一些操作。

举个例子。浏览器访问一个网站,我们可以在其中找到 50 个链接。当浏览器仍在运行时,例如 python 脚本可以分析找到的链接并决定浏览器应该点击哪个链接。

我的大问题是使用风车或硒可以完成多少个 http 请求。我的意思是这两个程序可以模拟在浏览器中访问网站并仅使用一个 http 请求来抓取内容,还是在浏览器仍在运行时使用网站的另一个内部请求来获取链接?

多谢!

4

1 回答 1

0

Selenium 使用浏览器,但 HTTP 请求的数量不是一个。对于 HTML 文档中提到的 JS、CSS 和图像(如果有),将向服务器发送多个 HTTP 请求。

如果你想用单个 HTTP 请求抓取页面,你需要使用只获取 HTML 源中存在的内容的抓取器。如果您使用的是 Python,请查看 BeautifulSoup。

于 2013-07-14T19:05:20.467 回答