r - PDF：表格提取 - Tabulizer (R)

翻译自：https://stackoverflow.com/questions/57465794 2019-08-12T17:40:54.430

438 次

我正在尝试使用 R tabulizer 包从 PDF 中提取表格。这些函数工作正常，但它无法从整个表中获取所有数据。

以下是我的代码

library(tabulizer)
library(tidyverse)
library(abjutils)

D_path = "https://github.com/financebr/files/raw/master/Compacto09-08-2019.pdf"

out <- extract_tables(D_path,encoding = 'UTF-8')

arrumar_nomes <- function(x) {
  x %>% 
    tolower() %>% 
    str_trim() %>% 
    str_replace_all('[[:space:]]+', '_') %>% 
    str_replace_all('%', 'p') %>% 
    str_replace_all('r\\$', '') %>% 
    abjutils::rm_accent()
}

tab_tidy <- out %>%
  map(as_tibble) %>% 
  bind_rows() %>% 
  set_names(arrumar_nomes(.[1,])) %>%
  slice(-1) %>% 
  mutate_all(funs(str_replace_all(., '[[:space:]]+', ' '))) %>% 
  mutate_all(str_trim)

将 PDF 表 ( D_path) 与tab_tidy数据库进行比较，您可以看到缺少一些信息。在期间找不到所有合并的第一列extract_tables()。此外，该函数也找不到包含“Boi Gordo”和“Boi Magro”信息的所有行。

其余的都处于完美状态。你知道为什么以及如何解决它吗？论坛中处理此问题的问题没有太多答案。

r - PDF：表格提取 - Tabulizer (R)

0 回答 0

Related

Reference