我在将 pdf 带入 R 时遇到问题。
它工作得很好,除了在 PDF 中有一些公司名称太长,因此分成 2 行(换行文本),所以当我使用 pdftools R 仍然以错误的方式解析这些行的信息。有没有人有什么建议?
这是我的代码:
library(pdftools)
dfpdf <- pdf_text('./data/record.pdf') %>%
stringr::str_split('\n', simplify = T) %>%
matrix(ncol = 1)
tab_start <- stringr::str_which(dfpdf, ' Uppdrag att')
tab_end <- stringr::str_which(dfpdf, ' Visar uppdrag')
tab <- dfpdf[(tab_start+1):(tab_end-1), 1] %>%
str_replace_all('\\s{2,}', '\t')
text_conn <- textConnection(tab)
df <- read.csv(text_conn, sep = '\t', skip = 1)
记录 3 和记录 4 占用了额外的一行,其中包含换行的文本。
您可以从在此处输入链接描述,第 9 页获得类似的 pdf 示例。这些行如下所示:
我感谢任何建议(包括更好的阅读 pdf 的方法和简化我的代码的方法)。
谢谢!