0

我在转换似乎与内存相关的 pdf 文件时遇到问题。我看过其他帖子,但不幸的是没有解决这个问题。

我正在尝试从 R 中的大约 5000 个 pdf 中检索文本。下面是我的代码:

pdf_path <- "D:/scrape/pdfs/set1"

# activate packages
library(pdftools)
library(dplyr)
library(stringr)

# create a function
convertpdf2txt <- function(dirpath){
  files <- list.files(dirpath, full.names = T)
  x <- sapply(files, function(x){
    x <- pdftools::pdf_text(x) %>%
      paste(sep = " ") %>%
      stringr::str_replace_all(fixed("\n"), " ") %>%
      stringr::str_replace_all(fixed("\r"), " ") %>%
      stringr::str_replace_all(fixed("\t"), " ") %>%
      stringr::str_replace_all(fixed("\""), " ") %>%
      paste(sep = " ", collapse = " ") %>%
      stringr::str_squish() %>%
      stringr::str_replace_all("- ", "") 
    return(x)
  })
}

# apply function
txts <- convertpdf2txt(pdf_path)

在应用该功能的过程中出现以下错误:

poppler_pdf_text(加载文件(pdf),opw,upw)中的错误:空间不足

任何帮助,将不胜感激。

4

0 回答 0