当我浏览这个 youtube 抓取教程https://www.youtube.com/watch?v=qbEN3boz7_M时,有人向我介绍,不是从加载了所有其他内容的“公共”页面抓取,而是有一种方法可以使用检查元素/萤火虫找到一个“私人”页面来更有效地抓取必要的信息。
google chrome > inspect element > network > XHR
youtube 视频中的人以股票价格为例,并且能够找到一个“私人”页面来快速抓取,并且对服务器的密集程度较低。虽然当我试图查看我想抓取的网站时,例如http://www.rottentomatoes.com/m/grigris/,通过检查元素 (chrome) > Network > XHR > 检查标头的请求 URL和预览,我似乎没有发现任何有用的东西。
我错过了什么吗?如何确保原始或浓缩信息是否隐藏在某处?以 Rottentomatoes.com 页面为例,我如何判断是否存在 1)提供电影标题和年份的“私人页面”和 2)“存储”的摘要页面(类似 csv 格式)所有电影的标题和年份在一页中?