我正在尝试将 PDF 文件转换为 excel。我提供了 PDF 前两页的屏幕截图以及我正在寻找的 excel 格式的结果。PDF 的前两页有 25 行条目,在第三张图片中以 excel 格式显示。PDF 的第一页有一些标题(关于公司的信息),PDF 的后续页面没有遵循这些标题。我知道 R 上的 pdftools 和 pdftables 包,但 pdftables 包对可以免费转换的页数有限制。
我使用了 R StackOverflow 中的以下代码(使用 pdftools 遵循 R Script pdf 到 excel)并且没有像我期望的那样划分列(我正在寻找的输出是第三个数字 - 附件图像中的 excel 格式) . 我相信我在下面指定 tx2 和 tx3 的方式有误。在此转换中的任何帮助将不胜感激!谢谢
library(pdftools)
library(stringr)
tx <- pdf_text("Charges.pdf")
tx2 <- unlist(str_split(tx, "[\\r\\n]+"))
tx3 <- str_split_fixed(str_trim(tx2), "\\s{2,}", 5)
df <- as.data.frame(tx3)
library(writexl)
write_xlsx(df, col_names = TRUE, format_headers = TRUE,"charges.xlsx")
我正在寻找的原始 PDF 和 excel 格式: