我正在尝试使用 R 从其官方网站获取 hot100 播放图表。
<http://www.billboard.com/biz/charts/hot-100-airplay>
问题是我必须以某种方式使用我的 ID 和密码登录网站。我已经尝试了 Rcurl 提供的示例代码,但它们都没有真正起作用。
所以现在,我并没有得到所有的排行榜,而是每周都抓取前四首歌曲。谁能提供一个解决方案,以便我能够抓取所有信息?
哦,billboard 的 API 已经正式关闭,所以我不能指望他们有什么。这是我尝试过的:
appannie = getURL("http://www.billboard.com/biz/charts/2013-11-02/hot-100-airplay, userpwd = tayshin:passward", verbose = TRUE)
输出如下:
About to connect() to www.billboard.com port 80 (#0)
Trying 93.184.216.229... * connected
Connected to www.billboard.com (93.184.216.229) port 80 (#0)
GET /biz/charts/2013-11-02/hot-100-airplay, userpwd = tayshin:passward HTTP/1.1
Host: www.billboard.com
Accept: */*
HTTP 1.0, assume close after body
HTTP/1.0 400 Bad Request
Connection: close
Date: Sun, 03 Nov 2013 06:52:23 GMT
Server: ECSF (sjc/4F95)
Closing connection #0
appannie
[1] ""
而且,这个也行不通。
x = getURL("http://www.billboard.com/biz/charts/2013-11-02/hot-100-airplay", userpwd = "tayshin:password")
它输出一些东西,但信息是有限的。