1

我希望在 R 中加入一个循环,该循环遍历 NFL 统计网站上的每场比赛的 boxscore 数据:http: //www.pro-football-reference.com/years/2012/games.htm

目前我不得不每周手动点击每场比赛的“boxscore”链接;有什么方法可以在 R 中实现自动化吗?我的代码适用于每个链接中的完整播放数据集;此刻我要花很长时间了!

4

1 回答 1

2

网页抓取可能违反某些网站的使用条款。这些条款的可执行性尚不清楚。虽然在许多情况下完全复制原始表达是非法的,但在美国,法院在 Feist Publications v. Rural Telephone Service 案中裁定允许复制事实。

require(RCurl)
require(XML)
bdata<-getURL('http://www.pro-football-reference.com/years/2012/games.htm')
bdata<-htmlParse(bdata)
boxdata<-xpathSApply(bdata,'//a[contains(@href,"boxscore")]',xmlAttrs)[-1]

以上将获得各种游戏的 boxscore 词干。

于 2012-12-11T12:01:55.170 回答