我有一个 PDF 文件夹,例如foo1.pdf, foo2.pdf, foo3.pdf。
我想在 Rstudio 中阅读这些 pdf,并为文档名称和相应的文本创建一个包含 2 列的数据框。例如:
Document <- c("foo1","foo2","foo3")
Text <- c("text in foo1", "text in foo2","text in foo3")
DF <- data.frame(Document, Text)
到目前为止我没有成功的尝试:
setwd("path to files")
library(pdftools)
files <- list.files(pattern="pdf$", full.names=TRUE)
filestext <- lapply(files, pdf_text)
filestextDF <- as.data.frame(matrix(filestext,ncol =2,byrow = F))
names(filestextDF) <- c("Document", "Text")
怎么可能做到这一点?