1

我在使用 R 'tm' 包读取 .pdf 文件时遇到问题。具体来说,我尝试运行以下代码:

library(tm)
filename = "myfile.pdf"

tmp1 <- readPDF(PdftotextOptions="-layout")
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
doc[1:15]

...这给了我错误:

Error in readPDF(PdftotextOptions = "-layout") : 
  unused argument (PdftotextOptions = "-layout")

我认为这是因为 pdftotext 程序(xpdf 的一部分,http://www.foolabs.com/xpdf/download.html)没有正确安装在我的机器上,因此 R 无法访问它。

正确安装 xpdf/pdftotext 以便执行上述 R 代码的步骤是什么?(我知道已经发布了类似的问题,但是它们没有解决相同的问题)

4

2 回答 2

1

PdftotextOptions没有 的参数readPDFreadPDF有一个control参数,它需要一个列表。所以正确的用法是:

if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) { 
  tmp1 <- readPDF(control = list(text = "-layout"))
  doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
}
于 2016-03-23T12:49:39.020 回答
0

setwd('C:/xpdf/bin64')                 

这个对我有用。

于 2017-06-13T15:19:31.733 回答