-5

当我尝试从 xvideos 获取完整的 dom 内容时(meaby it 网站不是最好的例子,但我现在找不到更多) browser.html() 仅返回 dom 的最后一个 div 元素。我认为这是页面上最后一个由 javascript 渲染的 div,但我不确定。

var zombie = require("zombie");                                                                                                    

zombie.visit("http://www.xvideos.com/", function (err, browser) {
  console.log(browser.html());                        
})

谢谢

4

1 回答 1

0

browser.html()确实返回整个页面。快速测试表明,使用僵尸获取 xvideos.com 会导致一些“存根”页面。

这只是一个理论,但可能 xvideos 上的人使用一些浏览器检测脚本并为任何不同于大多数常见浏览器的浏览器 (UserAgent) 返回存根页面。这可能是一种保护自己免受爬虫攻击的安全措施。

于 2012-08-24T11:29:26.393 回答