我有许多HTML 文件存储在本地目录中。理想情况下,我想使用 rvest 来提取表节点,制作一些数据框,并将文件导出为 .txt 文件。我不确定如何将 HTML 文件正确导入到 rvest 可以处理的结构中。
到目前为止我所做的尝试:
# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)
# Set file path
folder <- 'path to directory'
extension <- '.html'
# Read files to list
htmls <- lapply(X=html,
FUN=function(file){
.con <- file(description=paste(folder, file, sep='/'))
.html <- readLines(.con)
close(.con)
names(.html) <- file
.html
})
然后,痛苦地使用 regex + lapply/sapply 循环文件并提取表格。
关于更有效的工作流程和/或如何最好地优化 rvest 的建议?