1

我使用 Selenium 来“废弃”页面,寻找指向我网站的反向链接。我一直在使用普通的 curl 来抓取,但是 curl 不能很好地与 JavaScript 配合使用(实际上它们根本不会播放)。

我的问题是我需要从我抓取的页面中获取 HTTP 标头响应(200、301、404、503 等)代码。理想情况下,我也想获取我正在抓取的域的 IP 地址。

我在以下链接中使用 facebook php webdriver for PHP,但我找不到如何检索任何标题信息。

https://github.com/facebook/php-webdriver

我的问题是,有没有办法让 Selenium 返回标头信息和/或 IP 地址?

如果您不知道该问题的答案,那么您知道抓取和/或获取 HTTP 标头的更好方法吗?

提前致谢。

4

1 回答 1

2

Selenium 不执行 HTTP 状态代码或标头。我从未使用过它,但通常推荐的工具是BrowserMob 代理,由 Selenium 提交者之一创建。它捕获请求和响应,包括标头、状态代码和时间信息。

于 2013-04-05T21:09:26.817 回答