我希望能够获取页面的 HTML,如果我在浏览器中以交互方式执行此操作,将涉及多个操作和页面加载: 1. 转到主页 2. 在登录表单中输入文本并提交表单( post) 3. 帖子会经过各种重定向和框架集使用。
Cookie 会在整个过程中进行调整。
在浏览器中,提交后,我只是得到了页面。
但是要使用 curl(PHP 或其他)或 wget 或其他低级技术来做到这一点,cookie、重定向和框架集的管理都变得相当繁琐,并且非常紧密地将我的脚本绑定到网站(使其非常容易受到即使很小我正在抓取的网站的变化。)
谁能建议一种方法来做到这一点?
我已经看过Crowbar、PhantomJS和Lynx(带有 cmd_log/cmd_script 选项),但是将所有内容链接在一起以准确模仿我在 Firefox 或 Chrome 中所做的事情是困难的。
(顺便说一句,目标网站认为这个脚本是Firefox 或 Chrome 或“真正的”浏览器甚至可能是有用/必要的)