1

我已经在 mac 中下载了 PDFtoText 并编写了以下代码来将 pdf 文件转换为文本:

pdf_to_load =("~/my_directory/my.pdf")
system(paste('pdftotext', pdf_to_load))

代码运行良好,但我无法在源目录中看到 my.txt,也无法将其保存在文件夹中的任何位置。我哪里出错了?

我的一位导师能够在他的计算机上运行相同的代码,并且能够看到转换后的 .txt 文件。

请指导。

4

1 回答 1

5

如果在您的计算机上找不到默认的 PDF 提取引擎,您会得到错误的结果,请参阅?tm::readPDF。这些引擎不是 R 或tm软件包的一部分,它取决于您的计算机是否已经安装了必要的程序。

最简单的解决方案是安装程序pdftotextpdfinfo(您将需要两者),您可以在此处以预编译二进制文件的形式获取它们。

正确安装这些程序后,您应该能够通过使用包的readPDF()功能,在没有系统调用的情况下提取 PDF 文件的文本tm

library(tm)
my_pdf_txt <- readPDF(control=list(text="-layout"))(elem=list(uri="~/my_directory/my.pdf"), language="en")
于 2015-09-09T06:58:11.173 回答