首先,您可以从 的映射中的每个 PDF 索引第 3 到第 12 页pdf_text
,只需进行一些非常小的更改:
pdfs_text <- map(pdfs, ~ pdf_text(.x)[3:12])
但这假设所有 70 个 PDF 都是 13 页。这也可能很慢,特别是如果其中一些真的很大。尝试这样的事情(我使用 R 的 PDF 文档进行演示):
library(furrr)
#> Loading required package: future
library(pdftools)
library(tidyverse)
library(magrittr)
#>
#> Attaching package: 'magrittr'
#> The following object is masked from 'package:purrr':
#>
#> set_names
#> The following object is masked from 'package:tidyr':
#>
#> extract
plan(multiprocess)
directory <- file.path(R.home("doc"), "manual")
pdf_names <- list.files(directory, pattern = "\\.pdf$", full.names = TRUE)
# Drop the full reference manual since it's so big
pdf_names %<>% str_subset("fullrefman.pdf", negate = TRUE)
pdfs_text <- future_map(pdf_names, pdf_text, .progress = TRUE)
#> Progress: ----------------------------------------------------------------------------------- 100%
my_data <- tibble(
document = basename(pdf_names),
text = map_chr(pdfs_text, ~ {
str_c("Page ", seq_along(.x), ": ", str_squish(.x)) %>%
tail(-2) %>%
str_c(collapse = "; ")
})
)
my_data
#> # A tibble: 6 x 2
#> document text
#> <chr> <chr>
#> 1 R-admin.pdf "Page 3: i Table of Contents 1 Obtaining R . . . . . . . . .~
#> 2 R-data.pdf "Page 3: i Table of Contents Acknowledgements . . . . . . . ~
#> 3 R-exts.pdf "Page 3: i Table of Contents Acknowledgements . . . . . . . ~
#> 4 R-intro.pdf "Page 3: i Table of Contents Preface . . . . . . . . . . . .~
#> 5 R-ints.pdf "Page 3: i Table of Contents 1 R Internal Structures . . . .~
#> 6 R-lang.pdf "Page 3: i Table of Contents 1 Introduction . . . . . . . . ~
由reprex 包(v0.3.0)于 2019 年 10 月 19 日创建
要点:
tail(-2)
正在做您最关心的工作:删除前两页。通常你tail()
用来抓取最后n
一页,但它也非常适合抓取除第一页以外的所有n
页面 - 只需使用负数即可。
- 和正在并行读取 PDF
plan()
,future_map()
每个虚拟内核一次读取一个 PDF。还有,进度条!
- 我在
text
这里的构造中做了一些花哨的字符串连接,因为看起来您最终希望将每个文档页面的全文放在最终表格的一个单元格中。我在每个页面的文本之间插入“; Page [n]:”,这样数据就不会丢失,而且我还在所有文本中删除了额外的空白,因为通常有很多。