我正在尝试从 31 个 pdf 中分别提取一个表。表格的标题都以相同的方式开始,但结尾因地区而异。
一份文件的标题是“表 13.1:2011/12 农业年度按地区、农村和城市居民分列的从事农业的家庭总数;阿鲁沙地区,2012 年人口普查”。另一个是“表 13.1:2011/12 农业年度按地区、农村和城市居民分列的从事农业的家庭总数;多多马地区,2012 年人口普查”。
我使用 tabulizer 根据我需要的特定文本行手动抓取第一个表,但考虑到类似的命名约定,我希望自动化这个过程。
```
PATH2<- "Regions/02. Arusha Regional Profile.pdf"
```
txt2 <- pdf_text(PATH2) %>%
readr:: read_lines()
```
specific_lines2<- txt2[4621:4639] %>%
str_squish() %>%
str_replace_all(",","") %>%
strsplit(split = " ")