0

我可以从https://www.nicd.ac.za/diseases-az-index/disease-index-covid-19/surveillance-reports/daily-hospital-surveillance-datcov-report/的许多文件中提取表格。但是,对于许多 PDF,我不能。这是一个这样的案例以及我的玩具代码。

    library(tidyverse); 
    library(tabulizer); 
    
    download.file(url = "https://www.nicd.ac.za/wp-content/uploads/2021/01/Datcov19_National_05-Jan2021.pdf", destfile = "test.pdf", mode = "wb")
    
    locate_areas(file = "test.pdf", pages = 2)

使用它我得到的区域如下

clean_table_area <- list(c(1.334617, -380.926155,  914.880005, 1092.908704))

extract_tables(filename, pages = 2, area = clean_table_area) %>% as.data.frame()

但是,在将这个区域提供给 tabulizer 包的 extract_tables 函数时,我没有得到表格。

我还尝试了以下方法来提取表格,但仍然没有运气!

extract_tables(filename, pages = 2)[[1]] %>% as.data.frame()

我在这里想念什么。请指教。

4

0 回答 0