0

如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘?

我遇到了 Silge & Robinson “使用 R 进行文本挖掘:一种整洁的方法”(https://www.tidytextmining.com/),这对我的目的来说似乎很有希望。但我对 R 很陌生(试图为此目的学习它),所以我在一些非常基本的问题上遇到了挫折。

虽然我可以跟踪和重现这些示例,但它们大多从导入现有库(例如 janeaustenr 或 gutenbergr)开始,而我拥有的是一个包含 30 个 txt 文件的文件夹(每个文件都包含瑞典外交部长向议会提交的年度声明)。

我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库,然后是一个 DTM,然后我可以将它变成一个整洁的数据框,但我想必须有一个更简单的方法,直接从一个txt文件的文件夹到一个整洁的数据框。

4

1 回答 1

3

如果您有一个包含.txt文件的文件夹,您可以将它们读入一个名为的数据框,该数据框tbl有一个名为的单列text,代码如下:

library(tidyverse)

tbl <- list.files(pattern = "*.txt") %>% 
        map_chr(~ read_file(.)) %>% 
        data_frame(text = .)

这使用来自基础 R 的函数来查找文件 ( list.files()) 和来自purrr的函数来迭代所有文件。在此处查看相关问题

之后,您可以继续执行其他分析任务。

于 2018-03-03T04:06:16.903 回答