我正在使用 pjscrape 来抓取大量页面。
我面临的问题是,服务器通常会在经过一定数量的迭代连接并在短时间内阻止您。
我发现在页面抓取与其后续之间创建一些延迟的唯一方法是使用准备功能,即
pjs.addSuite({
// single URL or array
url: urls,
ready: function() {
return $('#MY_LAST_DIV').length > 0;
},
// single function or array, evaluated in the client
scraper: function() {
//...SCRAPING CODE...
}
});
pjscrape 超时功能似乎可以处理其他问题(我参考以下)
pjs.config({
...
timeoutInterval: 20000,
timeoutLimit: 20000
});
有没有办法在刮擦之间建立间隔?