0

我是这个平台的新手,希望有人可以帮助我。

我已经使用 pdftools 库将一些 pdf 文件导入 Rstudio。现在我想制作这个文本的结构化列。我似乎无法使结构正确。

这是我导入的一个添加文件的示例。我想在数据表中制作黄色阴影线。

在此处输入图像描述

这是我最终想要的结果。

在此处输入图像描述

现在我已经输入了下面的代码,但我无法将它放入数据表中。

library(pdftools)
library(stringr)
library(dplyr)

# load the PDF-files into Rstudio
files <- list.files(pattern = "pdf$", full.names = TRUE)

# make a list of the PDF-files
filestext <- lapply(files, pdf_text)

# remove "\n"
filestext <- str_split(filestext, pattern = "\n")

这是我得到的结果:

在此处输入图像描述

有谁知道解决这个问题的最简单方法?

4

1 回答 1

0

我也会给https://sensible.so一个机会。我们有一些很棒的文档和一个免费的计划,专门用于这样的项目。另外,当您注册时,有一些教程可以帮助您了解如何提取不同类型的数据。我敢打赌,您可以立即将其提取到一个干净的 JSON 对象中。

于 2022-01-27T23:01:35.940 回答