curl - 使用 Selenium 检索反向链接、HTTP 代码和 IP 地址

Question

我使用 Selenium 来“废弃”页面，寻找指向我网站的反向链接。我一直在使用普通的 curl 来抓取，但是 curl 不能很好地与 JavaScript 配合使用（实际上它们根本不会播放）。

我的问题是我需要从我抓取的页面中获取 HTTP 标头响应（200、301、404、503 等）代码。理想情况下，我也想获取我正在抓取的域的 IP 地址。

我在以下链接中使用 facebook php webdriver for PHP，但我找不到如何检索任何标题信息。

我的问题是，有没有办法让 Selenium 返回标头信息和/或 IP 地址？

如果您不知道该问题的答案，那么您知道抓取和/或获取 HTTP 标头的更好方法吗？

提前致谢。

score 2 · Accepted Answer

Selenium 不执行 HTTP 状态代码或标头。我从未使用过它，但通常推荐的工具是BrowserMob 代理，由 Selenium 提交者之一创建。它捕获请求和响应，包括标头、状态代码和时间信息。

1 回答 1