在过去的两天里,我一直在完善我想要抓取的网站的网址列表。我的脚本(除了数据提取之外与CheerioCrawler的示例基本相同)正在运行,但是有一个问题。本地保存在数据存储中的一些文档不完整。例如,在示例脚本中,某些已保存数据中的标题字段为空白。在其他人中,这一切都得到了保存。每次保存的唯一字段是url: request.url
.
我最好的猜测是,我正在抓取的域非常慢,从其他域加载了多个脚本,而 Cheerio 只是在快速浏览,而不是等待整个页面完全加载,然后再提取它可以找到的任何数据,并且继续。
要爬取的总页数约为 2500,所以我不介意过程是否缓慢,但我想确保它是完整的。
如何确保页面在提取之前已完全加载?我认为该async
功能会自动执行此操作。