我正在尝试阅读read_html
在 R 中使用的网站的内容。但是,对于某些网站,例如http://benchmarkrealestate.com/
,我收到此错误。Error in open.connection(x,"rb") : HTTP error 406
这个错误是什么意思?这只发生在某些网站上。我试图在网上查找它,但无法找到我收到此错误的确切原因。
我该如何解决?
我正在尝试阅读read_html
在 R 中使用的网站的内容。但是,对于某些网站,例如http://benchmarkrealestate.com/
,我收到此错误。Error in open.connection(x,"rb") : HTTP error 406
这个错误是什么意思?这只发生在某些网站上。我试图在网上查找它,但无法找到我收到此错误的确切原因。
我该如何解决?
根据请求中发送的 Accept 标头,请求的资源只能生成不可接受的内容。
上面这句话是从维基百科上摘下来的。
基本上,每当网络爬虫向网站发出请求时,它通常通过向其操作对等方(即网络服务器)提交特征标识字符串来识别自身、其应用程序类型和其他信息。在这种情况下,此标识在称为User-Agent的标头字段中传输。
将网页内容返回到控制台的一种方法是在包的帮助下将用户代理curl
信息设置为可识别的内容:
library(xml2)
library(rvest)
library(curl)
web_content <- read_html(curl('http://benchmarkrealestate.com/', handle = new_handle("useragent" = "Mozilla/5.0")))
您可能还想阅读标题字段。