excel - 如何编写 R 代码将 PDF 转换为 Excel (.xlsx)？

翻译自：https://stackoverflow.com/questions/66807037 2021-03-25T20:22:56.000

74 次

我正在尝试将 PDF 文件转换为 excel。我提供了 PDF 前两页的屏幕截图以及我正在寻找的 excel 格式的结果。PDF 的前两页有 25 行条目，在第三张图片中以 excel 格式显示。PDF 的第一页有一些标题（关于公司的信息），PDF 的后续页面没有遵循这些标题。我知道 R 上的 pdftools 和 pdftables 包，但 pdftables 包对可以免费转换的页数有限制。

我使用了 R StackOverflow 中的以下代码（使用 pdftools 遵循 R Script pdf 到 excel）并且没有像我期望的那样划分列（我正在寻找的输出是第三个数字 - 附件图像中的 excel 格式） . 我相信我在下面指定 tx2 和 tx3 的方式有误。在此转换中的任何帮助将不胜感激！谢谢

library(pdftools)
library(stringr)
tx <- pdf_text("Charges.pdf")
tx2 <- unlist(str_split(tx, "[\\r\\n]+"))
tx3 <- str_split_fixed(str_trim(tx2), "\\s{2,}", 5)
df <- as.data.frame(tx3)
library(writexl)
write_xlsx(df, col_names = TRUE, format_headers = TRUE,"charges.xlsx")

我正在寻找的原始 PDF 和 excel 格式：

excel - 如何编写 R 代码将 PDF 转换为 Excel (.xlsx)？

0 回答 0

Related

Reference