1

我在将 pdf 带入 R 时遇到问题。

它工作得很好,除了在 PDF 中有一些公司名称太长,因此分成 2 行(换行文本),所以当我使用 pdftools R 仍然以错误的方式解析这些行的信息。有没有人有什么建议?

这是文档的外观 - 问题在于记录 3 和记录 4。 在此处输入图像描述

这是我的代码:

library(pdftools)
dfpdf <- pdf_text('./data/record.pdf') %>%
stringr::str_split('\n', simplify = T) %>%
matrix(ncol = 1)

tab_start <- stringr::str_which(dfpdf, ' Uppdrag att')
tab_end <- stringr::str_which(dfpdf, '                      Visar uppdrag')
tab <- dfpdf[(tab_start+1):(tab_end-1), 1] %>%
  str_replace_all('\\s{2,}', '\t')
text_conn <- textConnection(tab)
df <- read.csv(text_conn, sep = '\t', skip = 1)

这就是我得到的: 在此处输入图像描述

记录 3 和记录 4 占用了额外的一行,其中包含换行的文本。

您可以从在此处输入链接描述,第 9 页获得类似的 pdf 示例。这些行如下所示:

我感谢任何建议(包括更好的阅读 pdf 的方法和简化我的代码的方法)。

谢谢!

4

0 回答 0