我最近在实习期间开始了抓取(和一般编程),我遇到了 PDF 抓取。每次我尝试用 R 阅读扫描的 pdf 时,我都无法让它工作。我尝试使用该file.choose()
功能无济于事。我是否需要更改我的目录,或者如何将 pdf 从我的文件中获取到 R 中?代码看起来像这样:
> library(pdftools)
> text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
> text
[1] ""
此外,使用 pdftables 将我带到这里:
> library(pdftables)
> convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
Error in get_content(input_file, format, api_key) :
Bad Request (HTTP 400).