0

使用 RI 想要获取单个 CSV 并提取最常见的两个和三个单词短语。我一直在搜索 Google 和 Stackoverflow,但找不到一个简单的方法来做到这一点。

我知道如何将 CSV 读入 R,但我还没有找到如何将数据提取到适当的数据类型并执行操作以获得我正在寻找的内容。

要求:

  1. 从 CSV 中删除所有非字母数字文本
  2. 使用同义词列表替换单词
  3. 删除没有意义的词(at、the 等)
  4. 获取两个单词短语和三个单词短语的常用短语的计数
  5. 使所有文本小写

此外,哪些数据类型最适合这种类型的分析?数据框?Tm值?语料库?ETC?

My_SRs <- read.csv("C:/example_folder/username/Documents/my_data.csv")

提前致谢!

4

1 回答 1

0

tm软件包(http://cran.r-project.org/web/packages/tm/tm.pdf)将满足您的需求。

从手册中,加载文件:

txt <- system.file("my_data.csv", control = list(removePunctuation = TRUE,
    removeNumbers = TRUE, tolower = TRUE, stopwords = TRUE)))

创建一个corpus

Corpus(DirSource(txt)

从那里,您可以使用TermDocumentMatrix或采用不同的路线PlainTextDocumenttermFreq传递词频。

于 2013-09-13T04:48:29.327 回答