如何从PDF中刮取带有一些标题文本的表格?我正在尝试使用 tabulizer 包。这是从特定页面获取表格的示例(波兰语“公共卫生需求地图”)
library(tabulizer)
library(tidyverse)
options(java.parameters = "-Xmx8000m")
location<-"http://www.mpz.mz.gov.pl/wp-content/uploads/sites/4/2019/01/mpz_choroby_ukladu_kostno_miesniowego_woj_dolnoslaskie.pdf"
(out<-extract_tables(location, pages = 8,encoding = "UTF-8", method = "stream", outdir = getwd())[[4]] %>%
as.tibble())
这让我在特定页面获得一张桌子。但是我会从网站上刮掉很多这样的 pdf:http : //www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/,然后是每个疾病都有很多链接的子页面,获取与 rvest 的链接,对于波兰的每个省,我需要在特定的标题字符串之后抓取表格,例如。
Tabela 1.2.2: Struktura zapadalnosci rejestrowanej w zależności od płci, miejsca zamieszkania oraz grupy wiekowej - Choroby układowe tkanki łącznej"
我需要检测 Tabela(...) Struktura zapadalnosci(...)",因为这些表格可能不在同一页面上。非常感谢您提前提供的任何指示和想法。
编辑:在我问了这个问题之后,到目前为止我成功地找到了表格可能所在的页面,可能非常无效:
library(pdfsearch)
pages <-
keyword_search(
location,
keyword = c(
'Tabela',
'Struktura zapadalnosci rejestrowanej'
),
path = TRUE,
surround_lines = FALSE
) %>%
group_by(page_num) %>%
mutate(keyword = paste0(keyword, collapse = ";")) %>%
filter(
str_detect(keyword, "Tabela") &
str_detect(keyword, "Struktura zapadalnosci rejestrowanej")
) %>%
pull(page_num) %>%
unique()