好吧,为了好玩,我决定刮掉所有在moodle网站上注册的上我大学的用户。
这是我用 Node.js 和cheerio 制作的程序,用于抓取网站,但我似乎无法获取 H2 标记内的文本。
这是我要抓取的网站,http ://moodle.rampo.edu/user/profile.php?id=2101 我需要做的只是更改 ID 号,它会遍历每个学生。
var request = require('request'),
cheerio = require('cheerio');
urls = [];
//For just single page, eventually will loop through each page.
request('http://moodle.ramapo.edu/user/profile.php?id=2101', function(err, resp, body){
if (!err && resp.statusCode == 200) {
var $ = cheerio.load(body);
$('h2.main', '#yui_3_9_1_2_1410303448188_167').each(function(){
//Not sure how to retrieve just the text name of person
});
console.log(urls);
};
});
如何只选择 H2 标记内的文本,以便我可以将它们全部记录到我的控制台?