我一直在使用findAssoc()
文本挖掘(tm
包),但意识到我的数据集似乎有些不对劲。
我的数据集是保存在一列 csv 文件中的 1500 个开放式答案。所以我像这样调用数据集并使用典型tm_map
将其制成语料库。
library(tm)
Q29 <- read.csv("favoritegame2.csv")
corpus <- Corpus(VectorSource(Q29$Q29))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus<- tm_map(corpus, removeWords, stopwords("english"))
dtm<- DocumentTermMatrix(corpus)
findAssocs(dtm, "like", .2)
> cousin fill ....
0.28 0.20
Q1。当我找到与 相关的术语时like
,我没有将输出like = 1
视为输出的一部分。然而,
dtm.df <-as.data.frame(inspect(dtm))
该数据框由 1500 个 obs 组成。1689 个变量..(或者是因为数据保存在一行 csv 文件中?)
Q2。即使cousin
andfill
出现过一次,当目标词like
出现一次时,分数就不同了。他们不应该一样吗?
我试图找到数学findAssoc()
但还没有成功。任何建议都非常感谢!