我正在尝试获取网页源。我用了:
$ curl --user name:password www.example.com
但这给了我登录页面的页面来源。我想在登录后获取页面源。
我也试过 wget 但没有成功。
我不能使用 nokogiri 和其他红宝石等。
有什么方法可以从命令行使用 firefox 来获取页面源,还是有其他方法可以获取页面源?
谢谢
有什么办法可以从命令行使用firefox来获取页面源...
您可以通过Selenium WebDriver编写 Firefox(以及其他浏览器)脚本。对于 Ruby 绑定,请参阅RubyBindings。
编辑:你说你不能使用“其他 Ruby gems”,所以我猜 Selenium Web Driver 不是一个选项。还有Selenium IDE,这是一个 Firefox 扩展,您可以使用它并基本上记录您自己登录的宏。然后您可以从命令行调用测试。这可能有帮助,也可能没有帮助,具体取决于您要执行的操作。
或者,您可以通过发送带有您需要的值的 POST 请求来使用 cURL 登录。如果您需要获取请求后返回的第一页以外的任何内容的来源,则需要使用该--cookie-jar
选项来保存会话以供后续请求使用。