r - 在R中阅读带有包装文本的pdf

问问题 2020-03-24T19:55:04.350

87 次

我在将 pdf 带入 R 时遇到问题。

它工作得很好，除了在 PDF 中有一些公司名称太长，因此分成 2 行（换行文本），所以当我使用 pdftools R 仍然以错误的方式解析这些行的信息。有没有人有什么建议？

这是文档的外观 - 问题在于记录 3 和记录 4。

这是我的代码：

library(pdftools)
dfpdf <- pdf_text('./data/record.pdf') %>%
stringr::str_split('\n', simplify = T) %>%
matrix(ncol = 1)

tab_start <- stringr::str_which(dfpdf, ' Uppdrag att')
tab_end <- stringr::str_which(dfpdf, '                      Visar uppdrag')
tab <- dfpdf[(tab_start+1):(tab_end-1), 1] %>%
  str_replace_all('\\s{2,}', '\t')
text_conn <- textConnection(tab)
df <- read.csv(text_conn, sep = '\t', skip = 1)

这就是我得到的：

记录 3 和记录 4 占用了额外的一行，其中包含换行的文本。

您可以从在此处输入链接描述，第 9 页获得类似的 pdf 示例。这些行如下所示：

我感谢任何建议（包括更好的阅读 pdf 的方法和简化我的代码的方法）。

谢谢！

r - 在R中阅读带有包装文本的pdf

0 回答 0

Related

Reference