我正在使用 r 中的制表器库从位于公共网站(https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf的 PDF 内的表格中捕获数据)。
我感兴趣的示例表位于 PDF 的第 23 页(第 2-21 页,文档开头有几个空白页)。该表格具有非标准格式和不同的符号(单元格中的非字母数字字符)。我想从这个文档中提取大部分(如果不是全部的话)表。
我想最终得到一个包含带有代码的字符的表格(即,带有 999 的黑色圆圈,带有 777 的白色圆圈,以及带有 -99 的符号等)。
Tabulizer 在将黑圈转换为一致的字母数字代码并保留加号的大部分情况下做得很好,但在带有白圈的 REC1 列上遇到问题,这很奇怪,因为它似乎可以识别其他列上的奇异字符.
有人可以帮忙解决这个问题吗?我也尝试选择表格区域,但输出更糟。下面是我正在使用的 r 代码。
我知道我可以使用 PDF 的内置选择和导出工具为文档中的所有表格手动完成此过程,但希望自动化该过程。
library("tabulizer")
f2 <- "https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf"
tab <- extract_tables(f2, pages = 23, method = 'lattice')
head(tab[[1]])
df <- as.data.frame(tab)
write.csv(df, file = "test.csv")