我使用getURL
并htmlTreeParse
使用以下代码进行网络抓取:
library(XML)
library(rvest)
library(httr)
library(RCurl)
url="https://www.restaurants.mcdonalds.fr/"
page = htmlTreeParse(getURL(url),useInternal = TRUE,encoding="utf8")
locs = unlist(xpathApply(page, '//div[@class="department-part"]/ul/li/a',
xmlGetAttr,"href"))
但是,由于某些原因,此代码不再有效。并且getURL(url)
,似乎我可以得到整个源代码。
url="https://www.restaurants.mcdonalds.fr/"
read_html(url) %>%
html_nodes(xpath='//div[@class="department-part"]/ul/li/a') %>%
html_text()
我也试过rvest
了,好像read_html
也不行。而我可以查看源代码,例如使用 Chrome。
我还测试了另一个链接。
url="https://restaurant.hippopotamus.fr/"
read_html(url) # works
getURL(url) # doesn't work and it did work before
我该如何尝试找到解决方案?