我试图在马丁路德金的“我有一个梦想”演讲中找到每个术语的频率。我已将所有大写字母转换为小写字母,并删除了所有停用词。我在 .txt 文件中有文本,因此无法在此处显示。在文件中读取的代码如下:
speech <- readLines(speech.txt)
然后我成功地执行了转换为小写并删除了停用词并将其命名为:
clean.speech
现在我在查找每个术语的频率时遇到了一些问题。我创建了一个语料库,检查了我的语料库,并创建了一个 TermDocumentMatrix,如下所示:
myCorpus <- Corpus(VectorSource(clean.speech))
inspect(myCorpus)
TDM <- TermDocumentMatrix(myCorpus)
到目前为止一切都很好。但是,我随后编写了以下代码并收到以下警告消息:
m < as.matrix(TDM)
Warning Message:
"In m < as.matrix(TDM): longer object length is not a multiple of shorter object length
我知道这是一个非常常见的警告信息,所以我先用谷歌搜索了它,但我找不到任何与术语频率有关的信息。我继续运行以下文本,看看它是否会运行并显示警告消息,但它没有。
v <- sort(rowSums(m), decreasing = TRUE)
d <- data.frame(word=names(v), freq=v)
head(d, 15)
我的目标只是找到术语的频率。我真诚地为提出这个问题道歉,因为我知道这个问题被问了很多。我只是不明白要对我的代码进行哪些更改。谢谢大家我很感激!