2

我想从 pdf 文件中提取表格并在 R 中对其进行分析。我正在使用 tabulizer::extract_tables() 函数。

该表超过一页(第 6 至第 9 页)。当我使用 extract_table 函数时,我收到一个包含 12 个元素的列表对象。我想要的表格在元素out[[1]]out[[4]]

问题是:我的表格在所有页面中都没有标题,并且文档有自己的标题。因此,该函数无法分隔正确的列数。该元素out[[1]]有 4 列,out[[2]]并且out[[3]]有 2 列和out[[4]]1 列。有没有办法至少在所有 4 个元素中获得正确数量的列?

代码:

library(tabulizer)

arquivo <- "1236_Pombos_PE.pdf"
out <- extract_tables(arquivo, output = "data.frame", encoding = "UTF-8")
4

0 回答 0