我可以从https://www.nicd.ac.za/diseases-az-index/disease-index-covid-19/surveillance-reports/daily-hospital-surveillance-datcov-report/的许多文件中提取表格。但是,对于许多 PDF,我不能。这是一个这样的案例以及我的玩具代码。
library(tidyverse);
library(tabulizer);
download.file(url = "https://www.nicd.ac.za/wp-content/uploads/2021/01/Datcov19_National_05-Jan2021.pdf", destfile = "test.pdf", mode = "wb")
locate_areas(file = "test.pdf", pages = 2)
使用它我得到的区域如下
clean_table_area <- list(c(1.334617, -380.926155, 914.880005, 1092.908704))
extract_tables(filename, pages = 2, area = clean_table_area) %>% as.data.frame()
但是,在将这个区域提供给 tabulizer 包的 extract_tables 函数时,我没有得到表格。
我还尝试了以下方法来提取表格,但仍然没有运气!
extract_tables(filename, pages = 2)[[1]] %>% as.data.frame()
我在这里想念什么。请指教。