我的理解是,当我这样做时:
agent = Mechanize.New
page = agent.get("http://www.stackoverflow.com/")
机械化将HTTP
GET
请求text/html
. 但是,当我在完整的网络浏览器(如 Chrome/Firefox)中导航到诸如 Stackoverflow.com 之类的网页时,浏览器会读取 HTML 页面并随后GET
请求相关的 CSS、图像、JavaScript 等。
我可以想象解析 Mechanize 返回的初始 HTML 并识别任何 CSS、图像等,并发出后续请求,但有没有更简单的方法让 Mechanize 自动抓取所有或指定的组,也许只是关联的图像网页的组成部分?