我正在尝试使用 R tabulizer 包从 PDF 中提取表格。这些函数工作正常,但它无法从整个表中获取所有数据。
以下是我的代码
library(tabulizer)
library(tidyverse)
library(abjutils)
D_path = "https://github.com/financebr/files/raw/master/Compacto09-08-2019.pdf"
out <- extract_tables(D_path,encoding = 'UTF-8')
arrumar_nomes <- function(x) {
x %>%
tolower() %>%
str_trim() %>%
str_replace_all('[[:space:]]+', '_') %>%
str_replace_all('%', 'p') %>%
str_replace_all('r\\$', '') %>%
abjutils::rm_accent()
}
tab_tidy <- out %>%
map(as_tibble) %>%
bind_rows() %>%
set_names(arrumar_nomes(.[1,])) %>%
slice(-1) %>%
mutate_all(funs(str_replace_all(., '[[:space:]]+', ' '))) %>%
mutate_all(str_trim)
将 PDF 表 ( D_path
) 与tab_tidy
数据库进行比较,您可以看到缺少一些信息。在 期间找不到所有合并的第一列extract_tables()
。此外,该函数也找不到包含“Boi Gordo”和“Boi Magro”信息的所有行。
其余的都处于完美状态。你知道为什么以及如何解决它吗?论坛中处理此问题的问题没有太多答案。