我在一个表中有一个 pdf 路径列表,我正在尝试对列出的其余 pdf 重复以下命令。基本上我只是将pdf文件转换为文件第一页的文本,然后使用keyword_search命令对该页面中的某些短语进行搜索。我可以一次成功完成一个文件,但我有 281 个文件。我错过了什么??
一个 PDF 文件
my.file<-"//.../cover-letter.pdf"
my.page<-pdf_text(my.file)[1] %>% as.character()
my.result<-keyword_search(my.page, keyword = c('reason','not being marketed', 'available for sale', 'withdrawn from sale', 'commercial distribution', 'target date'), ignore_case = TRUE)
my.result$Cover_Letter<-my.file
my.result<-select(my.result, -5)
result<-merge(TotNoMark_clean, my.result, by = "Cover_Letter", all.x = TRUE)
多个 PDF 文件:尝试失败
DF<-as.data.frame(TotNoMark_clean)
file.names<-DF$Cover_Letter
for(i in 1:length(file.names)){
{pdf_pages<-pdf_text(file.names[i])[1]
pdf_result<-keyword_search(pdf_pages, keyword = c('reason','not being marketed', 'available for sale', 'withdrawn from sale', 'commercial distribution', 'target date'))
pdf_result$Cover_Letter<-file.names[i]
if (!nrow(pdf_result)) {next}
}
Result<<-pdf_result
}
Result<-select(Result, -5)
Result<-merge(DF, Result, by = "Cover_Letter", all.x = TRUE)
这是我收到的错误消息:
"Error in `$<-.data.frame`(`*tmp*`, "Cover_Letter", value = "//cover-letters/***.pdf") :
replacement has 1 row, data has 0"