0

我正在使用rvest R包从这个exposed url网页上抓取一个 PDF 文件,但是在我点击by name之后,最终链接被暴露(作为比特流 url - 不管它是什么)AC1-96-21-01-2011.pdf。最终的 pdf 文件隐藏在此处,无法访问。这会阻止所有rvest功能尝试,read_html()因为最终的 pdf 文件仅在单击上一个链接 (on href) 时打开。复制粘贴xml node不允许我输入pdf文件的内容。

<a href="/judgments/handle/123456789/701">Arbitration Case - AC</a>

最终文件位于此 url 上,该 url 未在href节点中公开。 http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf

因此,作为总结,我如何使用上述属性中rvest未找到的 pdf 文件链接访问该链接。href

我试图搜索bitstream,但它把我带到了别的地方。

4

1 回答 1

1

我认为您正在查看错误的节点:

library(rvest)

"http://judgmenthck.kar.nic.in/judgments/handle/123456789/563560" %>%
read_html()                                                       %>%
html_nodes(xpath = "//td/a[@target='_blank']")                    %>%
html_attr("href")                                                 %>% 
unique()                                                          %>% 
{grep("[.]pdf", ., value = T)}                                    %>%
paste0("http://judgmenthck.kar.nic.in", .)                         ->
pdf_url

print(pdf_url)
# [1] "http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf"
于 2020-01-15T10:54:17.827 回答