0

原始pdf文件

我正在尝试在 tabulizer 包中使用 extract_tables 。

library(tabulizer)
setwd("directory")
pdf_file <- "filenames.pdf"
cle <- extract_tables(pdf_file, pages=47 ,method="stream", encoding="UTF-8")

我需要使用 extract_table 函数,就是这段代码。

但是,有一个关键问题。它会自动合并某些列 捕获pdf表格 捕获 R 结果

当您看到两张图片时,您可能会了解情况。第 6 列和第 7 列,在 pdf 表格中的图像被合并。

不是

0.9000 | -

0.6450 | -

0.7470 | -

两列合并为

0.9000-

0.6450-

0.7470-

所以我想找到方法不要像这样制作表格,这也是一般的方法。

因此,我尝试将另一个组件放在这样的函数中。

library(pdftools)
library(tabulizer)
files <- list.files(pattern = "pdf$")

opinions <- lapply(files, pdf_text)

cle <- extract_tables(opinions[[2]][47],method="stream", encoding="UTF-8")

*!Error in normalizePath(path.expand(path), winslash, mustWork) :*

因此,如果您知道我应该怎么做,请留下任何解决方案。谢谢。

4

0 回答 0