我rvest用来做网络抓取——为了试验,我正在从 IMDB 抓取电影的评论分数。对于这个例子,我试图从这个站点获取所有的评论和相关的用户名。请注意,并非所有评论都有星级 - 我想要的只是有星级的评论。
我的起始代码:
library(rvest)
library(magrittr)
id = "0000001"
reviews = paste0("http://www.imdb.com/title/tt",id,"/reviews-index?start=0;count=10000000") %>%
html() %>%
html_nodes(xpath='//td[contains(@class, "comment-summary")]')
这将返回一个包含 11 条评论的列表,这与我预期的完全一样(这部电影有 11 条评论)。
然后,当我尝试浏览此列表以检查是否存在星级时,我得到了意想不到的结果。
reviews %>%
.[[1]] %>%
html_node(xpath='//img[contains(@width,"102")]')
这产生
<img width="102" height="12" alt="10/10" src="http://i.media-imdb.com/images/showtimes/100.gif"/>
但第一次评论实际上只包含:
<td class="comment-summary">
<a href="/user/ur0093335/"><img class="avatar" src="http://ia.media-imdb.com/images/M/MV5BMjI2NDEyMjYyMF5BMl5BanBnXkFtZTcwMzM3MDk0OQ@@._SX40_SY40_SS40_.jpg" height="width="/></a>
<h2><a href="reviews?count=10000000&start=0">one-shot record of a belly dancer</a></h2>
<b>Author:</b>
<a href="/user/ur0093335/">Brian Fuller (bfuller@montreat.edu)</a>
<small>on 12 August 1998</small>
</td>
我的img代码返回的子集中不存在。 我如何才能真正将 html 子集化以html_node()直观地执行后续操作?