我想收集 200 多个 PDF 文件的一些特定文本,所以我需要一些“自动”的东西来帮助我。
所有 PDF 都具有几乎相同的结构(但不足以让我做我想做的事)。我需要的文本在每个 PDF 文件中的“Palavras”之后出现,但并非每个 PDF 都只有我想要的内容。
我现在使用的代码(在 pdftools 的帮助下)收集了“Palavras”和“ABSTRACT”之间的内容:
lapply(x, function(x){
list_output <- pdftools::pdf_text(x)
text_output <- gsub('(\\s)+', ' ', paste(unlist(list_output), collapse=" "))
trimws(regmatches(text_output, gregexpr("(?<=Palavras).*?(?=ABSTRACT)", text_output, perl=TRUE))[[1]][1])
})
但正如我所说,并非每个 PDF 都具有相同的结构,因此它不适用于很多文件。
我认为唯一对我有用的是在“Palavras”之后获取某些特定字符,例如提取“Palavras”之后的所有内容的代码,直到 200 或 300 个字符。问题是我不知道该怎么做。
有什么建议么?任何帮助,将不胜感激。