我想使用 R 中的 Rvest 包从该酒店主页上抓取所有用户评论。
我只能检索前 10 条评论。通过单击由 JavaScript 生成的“查看更多”按钮来加载下一组评论。
我编写了以下 JavaScript - 'basic.js':
var webPage = require('webpage');
var page = webPage.create();
var fs = require('fs');
var path = 'taj.html'
page.open('http://www.holidayiq.com/Taj-Exotica-Benaulim-hotel-2025.html', function (status) {
var content = page.content;
fs.write(path,content,'w')
phantom.exit();
});
然后,我在 R 中使用了以下命令:
system("./phantomjs basic.js")
输出“taj.html”文件没有所有评论。所以,抓取代码...
pg <- read_html("taj.html")
pg %>% html_nodes(".detail-review-by-hotel .srm") %>% html_node(".media-heading") %>% html_text()
... 仅返回前 10 条评论。