我正在尝试访问在 Github 上拥有超过 5000 颗星的所有存储库。我编写了这个爬虫来使用 Node.js(它在 Cloud9 环境中运行):
var request = require('request');
var fs = require('fs');
var options = {
url: 'https://api.github.com/repositories',
headers: {
'User-Agent': 'myusernamehere'
},
qs: {
stargazers: 5000
}
};
function callback(error, response, body) {
if (!error && response.statusCode == 200) {
console.log(response.headers);
fs.writeFile('output_teste.json', body, function (err) {
if (err) throw err;
console.log('It\'s saved!');
console.log(response.statusCode);
});
} else {
console.log(response.statusCode);
}
}
request(options, callback);
但结果并不是所有的存储库,只是所有存储库的第一页。如何在请求模块中使用分页?我试图在文档中找到示例,但它们并不那么清楚。还是我需要用另一个库或另一种语言来做这个?
谢谢!