r - 通过在 R 中定义一定数量的字符从 PDF 文件中提取文本

翻译自：https://stackoverflow.com/questions/56386652 2019-05-30T22:57:58.993

82 次

我想收集 200 多个 PDF 文件的一些特定文本，所以我需要一些“自动”的东西来帮助我。

所有 PDF 都具有几乎相同的结构（但不足以让我做我想做的事）。我需要的文本在每个 PDF 文件中的“Palavras”之后出现，但并非每个 PDF 都只有我想要的内容。

我现在使用的代码（在 pdftools 的帮助下）收集了“Palavras”和“ABSTRACT”之间的内容：

lapply(x, function(x){
   list_output <- pdftools::pdf_text(x)
   text_output <- gsub('(\\s)+', ' ', paste(unlist(list_output), collapse=" "))
   trimws(regmatches(text_output, gregexpr("(?<=Palavras).*?(?=ABSTRACT)", text_output, perl=TRUE))[[1]][1])
})

但正如我所说，并非每个 PDF 都具有相同的结构，因此它不适用于很多文件。

我认为唯一对我有用的是在“Palavras”之后获取某些特定字符，例如提取“Palavras”之后的所有内容的代码，直到 200 或 300 个字符。问题是我不知道该怎么做。

有什么建议么？任何帮助，将不胜感激。

r - 通过在 R 中定义一定数量的字符从 PDF 文件中提取文本

0 回答 0

Related

Reference