1

请参阅下面的 R 代码,我正在使用 JSONlite 包从网站上抓取数据:

library(jsonlite)
    url <- "http://fantasy.premierleague.com/web/api/elements/"
    seasonsdata <- data.frame(matrix(NA,nrow=1,ncol=20))
    seasonsdata <- seasonsdata[-1,]
    fetchData <- function(i) {res <- try(a <- fromJSON(paste0(url,i)))
    if(!inherits(res,"try-error")) {b<-data.frame(a[1],a[20],a[21],as.data.frame(a$season_history))}}

    seasonsdata <- lapply(1:696, fetchData)
    seasonsdata <-do.call(rbind,lapply(seasonsdata,data.frame,stringsAsFactors=FALSE))

该代码至少在 10 点之前对“i”工作正常,我得到了所需的输出。但是,当我将 'i' 增加到 696 时,我得到了错误:

Error in data.frame(a[1], a[20], a[21], as.data.frame(a$season_history)) : 
  arguments imply differing number of rows: 1, 0

有什么建议吗?

4

1 回答 1

0

如果a$season_history是空的(第 57 页是一个例子),那么当你这样做时data.frame(a[1], a[20], a[21], as.data.frame(a$season_history)),前 3 个元素有一行(它们是标量),最后一个元素有零行。在您的功能中,您可以首先检查是否a$season_history存在。如果不是,您可以NA在其位置创建一行 s。

但是,您的代码还有另一个问题,您可能还不知道。并非每个到 696 的页面都存在,当您尝试从中提取数据时会出现 404 错误。在您执行最后do.call(rbind, ...)一步之前,我添加了一些步骤来删除这些页面。

library(jsonlite)
url <- "http://fantasy.premierleague.com/web/api/elements/"
seasonsdata <- data.frame(matrix(NA, nrow = 1, ncol = 20))
seasonsdata <- seasonsdata[-1, ]
fetchData <- function(i) {
  res <- try(a <- fromJSON(paste0(url, i)))
  if (!inherits(res, "try-error")) {
    if (nrow(as.data.frame(a$season_history)) == 0) {
      b <- data.frame(a[1], a[20], a[21], as.data.frame(matrix(NA, ncol = 17)))
    } else {
      b <- data.frame(a[1], a[20], a[21], as.data.frame(a$season_history))
    }
  }
}

seasonsdata <- lapply(1:696, fetchData)
seasonsdata <- seasonsdata[!sapply(seasonsdata, is.null)]
seasonsdata <- seasonsdata[sapply(seasonsdata, is.data.frame)]
seasonsdata <- do.call(rbind,lapply(seasonsdata, data.frame, stringsAsFactors = FALSE))
于 2015-08-01T19:33:24.060 回答