r - 如何在 R 中使用 pdftools 将大量 PDF 文件转换为 TXT 文件？

Question

我正在尝试将大约 600 个充满表格的 pdf 文件提取为文本格式，以便进行一些数据探索。看起来 pdftool 是我完成工作的最佳选择，但帮助文件很简短。我找到的最接近的教程使用 xpdf。有没有办法使用 pdftools 做到这一点？

library("pdftools")
folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
Affairs\\Visa Statistics\\Scrape")
folder
length <- length(dir(folder))
length
dirpdf <- dir(folder)
dirpdf[1]


for(i in 1:length(dir(folder)))
{
   text <- pdf_text("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
 Affairs\\Visa Statistics\\Scrape")
}

xpdf批处理教程

score 0 · Accepted Answer

library("pdftools")

folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
Affairs", "Visa Statistics", "Scrape")
folder
length <- length(dir(folder))
length
dirpdf <- dir(folder)
dirpdf[1]

pdftotxt <- "C:\\Users\\adarvishian\\Documents\\R\\otherpackages\\xpdf-
tools-win-4.00\\xpdf-tools-win-4.00\\bin64\\pdftotext.exe"

for(i in 1:length(dir(folder)))
{
pdf <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
Affairs\\Visa Statistics", "Scrape", dirpdf[i])
system(paste("\"", pdftotxt, "\" \"", pdf, "\"", sep = ""),wait = F)
}

r - 如何在 R 中使用 pdftools 将大量 PDF 文件转换为 TXT 文件？

1 回答 1

Related

Reference