0

我有一个 PDF 文件夹,例如foo1.pdf, foo2.pdf, foo3.pdf

我想在 Rstudio 中阅读这些 pdf,并为文档名称和相应的文本创建一个包含 2 列的数据框。例如:

Document <- c("foo1","foo2","foo3")
 Text <- c("text in foo1", "text in foo2","text in foo3")
DF <- data.frame(Document, Text)

到目前为止我没有成功的尝试:

setwd("path to files")
library(pdftools)
files <- list.files(pattern="pdf$", full.names=TRUE)
filestext <- lapply(files, pdf_text)
filestextDF <- as.data.frame(matrix(filestext,ncol =2,byrow = F))
names(filestextDF) <- c("Document", "Text")

怎么可能做到这一点?

4

1 回答 1

2

您可以使用将每个 pdf 中的文本组合成一个字符串,paste0并使用文件名及其相应的文本创建一个数据框。

library(pdftools)
filestextDF <- data.frame(Document = files,
                          text = sapply(files, function(x) 
                                 paste0(pdf_text(x), collapse = ' ')))        
于 2020-11-04T02:40:35.237 回答