我在转换似乎与内存相关的 pdf 文件时遇到问题。我看过其他帖子,但不幸的是没有解决这个问题。
我正在尝试从 R 中的大约 5000 个 pdf 中检索文本。下面是我的代码:
pdf_path <- "D:/scrape/pdfs/set1"
# activate packages
library(pdftools)
library(dplyr)
library(stringr)
# create a function
convertpdf2txt <- function(dirpath){
files <- list.files(dirpath, full.names = T)
x <- sapply(files, function(x){
x <- pdftools::pdf_text(x) %>%
paste(sep = " ") %>%
stringr::str_replace_all(fixed("\n"), " ") %>%
stringr::str_replace_all(fixed("\r"), " ") %>%
stringr::str_replace_all(fixed("\t"), " ") %>%
stringr::str_replace_all(fixed("\""), " ") %>%
paste(sep = " ", collapse = " ") %>%
stringr::str_squish() %>%
stringr::str_replace_all("- ", "")
return(x)
})
}
# apply function
txts <- convertpdf2txt(pdf_path)
在应用该功能的过程中出现以下错误:
poppler_pdf_text(加载文件(pdf),opw,upw)中的错误:空间不足
任何帮助,将不胜感激。