我正在尝试将 pdf 文件的文件夹读入 R 中的数据框。我可以使用pdftools
库和pdf_text(filepath)
.
理想情况下,我可以获取一系列 pdf 的作者和标题,然后将其推送到具有这些列的数据框中,以便我可以tidytext
在文本上使用基本功能。
对于现在的单个文件,我可以使用:
library(pdftools)
library(tidytext)
library(dplyr)
txt <- pdf_text("filpath")
txt <- data_frame(txt)
txt %>%
unnest_tokens(word, txt)
在这里,我有一个带有单个单词的数据框。我想进入一个数据框,其中我有文章解包,包括标题和作者列。