html - rvest & 从本地目录读取 HTML 文件

翻译自：https://stackoverflow.com/questions/50399884 2018-05-17T20:17:16.993

2123 次

我有许多HTML 文件存储在本地目录中。理想情况下，我想使用 rvest 来提取表节点，制作一些数据框，并将文件导出为 .txt 文件。我不确定如何将 HTML 文件正确导入到 rvest 可以处理的结构中。

到目前为止我所做的尝试：

# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)

# Set file path
folder <- 'path to directory'
extension <- '.html'

# Read files to list 
htmls <- lapply(X=html,
                FUN=function(file){
                  .con <- file(description=paste(folder, file, sep='/'))
                  .html <- readLines(.con)
                  close(.con)
                  names(.html)  <- file
                  .html
                })

然后，痛苦地使用 regex + lapply/sapply 循环文件并提取表格。

关于更有效的工作流程和/或如何最好地优化 rvest 的建议？

html - rvest & 从本地目录读取 HTML 文件

0 回答 0

Related

Reference