1

我从一个网站下载了多个 zip 文件。每个 zip 文件包含多个htmlxml扩展文件(每个约 100K)。

可以手动提取文件然后解析它们。但是,我希望能够在R(如果可能的话)内做到这一点

使用上一个问题中的代码的示例文件(抱歉有点大) - 下载一个 zip 文件

library(XML)

pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
doc <- htmlParse(pth)

myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs][[1]]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles) [[1]]

dir.create("temp", "hmrcCache")
download.file(fileURLS, destfile = file.path("temp", myfiles))

XBRL package如果我手动提取文件,我可以解析文件 。这可以按如下方式完成

library(XBRL)     
inst <- file.path("temp", "Prod224_0004_00000121_20130630.html")
out <- xbrlDoAll(inst, cache.dir="temp/hmrcCache", prefix.out=NULL, verbose=T)

我正在努力解决如何从 zip 文件夹中提取这些文件并解析每个文件,比如使用 R 循环解析,而不需要手动提取它们。我尝试开始,但不知道如何从这里开始。感谢您的任何建议。

# Get names of files
lst <- unzip(file.path("temp", myfiles), list=TRUE)
dim(lst) # 118626

# unzip  and extract first file
nms <- lst$Name[1] # Prod224_0004_00000121_20130630.html
lst2 <- unz(file.path("temp", myfiles), filename=nms)

我正在使用 Windows 8.1

R 版本 3.1.2 (2014-10-31)

平台:x86_64-w64-mingw32/x64(64位)

4

1 回答 1

0

根据 Karsten 在评论中的建议,我将文件解压缩到一个临时目录,然后解析每个文件。我用这个snow包来加快速度。

  # Parse one zip file to start
  fls <- list.files(temp)[[1]]

  # Unzip 
  tmp <- tempdir()
  lst <- unzip(file.path(temp, fls), exdir=tmp)

  # Only parse first 10 records
  inst <- lst[1:10]
      
  # Start to parse - in parallel
  cl <- makeCluster(parallel::detectCores())
  clusterCall(cl, function() library(XBRL))
  
  # Start
  st <- Sys.time()
  
  out <- parLapply(cl, inst, function(i) 
                                  xbrlDoAll(i, 
                                            cache.dir="temp/hmrcCache", 
                                            prefix.out=NULL, verbose=T) )
  
  stopCluster(cl)
  
  Sys.time() - st
于 2015-04-29T21:29:54.623 回答