html - 使用 rvest 使用相对路径跟随“下一个”链接

Question

我正在使用该rvest软件包从http://www.radiolab.org/series/podcasts页面中抓取信息。抓取第一页后，我想点击底部的“下一页”链接，抓取第二页，移动到第三页，等等。

以下行给出了错误：

html_session("http://www.radiolab.org/series/podcasts") %>% follow_link("Next")
## Navigating to 
##     
##       ./2/  
## Error in parseURI(u) : cannot parse URI 
##     
##       ./2/

检查 HTML 显示“./2/”周围有一些rvest明显不喜欢的多余内容：

html("http://www.radiolab.org/series/podcasts") %>% html_node(".pagefooter-next a")
## <a href="&#10;    &#10;      ./2/  ">Next</a> 

.Last.value %>% html_attrs()
##                   href 
## "\n    \n      ./2/  "

问题 1： 如何才能rvest::follow_link像浏览器一样正确处理此链接？（我可以手动抓取“下一个”链接并使用正则表达式对其进行清理，但更喜欢利用提供的自动化rvest。）

在follow_link代码末尾，它调用jump_to. 所以我尝试了以下方法：

html_session("http://www.radiolab.org/series/podcasts") %>% jump_to("./2/")
## <session> http://www.radiolab.org/series/2/
##   Status: 404
##   Type:   text/html; charset=utf-8
##   Size:   10744
## Warning message:
## In request_GET(x, url, ...) : client error: (404) Not Found

深入研究代码，看起来问题出在 with 上XML::getRelativeURL，它用于dirname剥离原始路径的最后一部分（“/podcasts”）：

XML::getRelativeURL("./2/", "http://www.radiolab.org/series/podcasts/")
## [1] "http://www.radiolab.org/series/./2"

XML::getRelativeURL("../3/", "http://www.radiolab.org/series/podcasts/2/")
## [1] "http://www.radiolab.org/series/3"

问题 2： 如何获取rvest::jump_to并XML::getRelativeURL正确处理相对路径？

score 1 · Accepted Answer

由于 RadioLab.com 似乎仍然会出现此问题，因此您最好的解决方案是创建一个自定义函数来处理这种极端情况。如果你只担心这个站点——以及这个特定的错误——那么你可以写这样的东西：

library(rvest)

follow_next <- function(session, text ="Next", ...) {
    link <- html_node(session, xpath = sprintf("//*[text()[contains(.,'%s')]]", text))
    url <- html_attr(link, "href")
    url = trimws(url)
    url = gsub("^\\.{1}/", "", url)
    message("Navigating to ", url)
    jump_to(session, url, ...)
}

这将允许您编写如下代码：

html_session("http://www.radiolab.org/series/podcasts") %>%
    follow_next()

#> Navigating to 2/
#> <session> http://www.radiolab.org/series/podcasts/2/
#>   Status: 200
#>   Type:   text/html; charset=utf-8
#>   Size:   61261

这本身并不是一个错误——RadioLab 上的 URL 格式错误，无法解析格式错误的 URL 不是错误。如果您想自由地处理问题，您需要手动解决它。

请注意，您还可以使用RSelenium启动实际浏览器（例如 Chrome）并让其为您执行 URL 解析。

html - 使用 rvest 使用相对路径跟随“下一个”链接

1 回答 1

Related

Reference