我正在尝试在 tabulizer 包中使用 extract_tables 。
library(tabulizer)
setwd("directory")
pdf_file <- "filenames.pdf"
cle <- extract_tables(pdf_file, pages=47 ,method="stream", encoding="UTF-8")
我需要使用 extract_table 函数,就是这段代码。
当您看到两张图片时,您可能会了解情况。第 6 列和第 7 列,在 pdf 表格中的图像被合并。
不是
0.9000 | -
0.6450 | -
0.7470 | -
两列合并为
0.9000-
0.6450-
0.7470-
所以我想找到方法不要像这样制作表格,这也是一般的方法。
因此,我尝试将另一个组件放在这样的函数中。
library(pdftools)
library(tabulizer)
files <- list.files(pattern = "pdf$")
opinions <- lapply(files, pdf_text)
cle <- extract_tables(opinions[[2]][47],method="stream", encoding="UTF-8")
*!Error in normalizePath(path.expand(path), winslash, mustWork) :*
因此,如果您知道我应该怎么做,请留下任何解决方案。谢谢。