我需要帮助从 r 中的 pdf 文件中提取信息(例如https://arxiv.org/pdf/1701.07008.pdf)
我正在使用pdftools
,但有时pdf_info()
不起作用,在这种情况下,我无法自动使用pdf_text()
请注意,tabulizer 在我的 PC 上不起作用。
这是我正在做的处理(抱歉,您需要保存 pdf 并使用自己的路径进行操作):
info <- pdf_info(paste0(path_folder,"/",pdf_path))
title <- c(title,info$keys$Title)
key <- c(key,info$keys$Keywords)
auth <- c(auth,info$keys$Author)
dom <- c(dom,info$keys$Subject)
metadata <- c(metadata,info$metadata)
我大部分时间都想获得标题和摘要。