1

我刚刚在 R 中创建了一个术语文档矩阵,但现在我想重命名一些术语。

例如这里

vector <- "This is a test."

library(tm)

doc.vec <- VectorSource(vector)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)

检查 TDM 矩阵,它将输出

    Docs
    Terms   1
    test. 1
    this  1

现在我想重命名例如“测试”。到“任何东西”。原因是当我挖掘我的文本时,有像“大数据”这样的词显然属于一起。所以在第一步中,我使用 gsub 将“big data”替换为“bigdata”。但是最后,我希望他们的输出是“大数据”。

提前谢谢帮助。

4

1 回答 1

1

这是一种方法,不是回答您的第一个问题,而是解决您所说的需求:

vector <- "This is a test.  I use big data.  That's George Washington!"

library(tm)
library(qdap)

vector2 <- space_fill(vector, c("big data", "George Washington"))

doc.vec <- VectorSource(vector2)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)
rownames(TDM) <- gsub("~~", " ", rownames(TDM))
inspect(TDM)

                    Docs
Terms                1
  big data.          1
  george washington! 1
  test.              1
  that's             1
  this               1
  use                1
于 2014-08-22T13:39:01.020 回答