r - 创建短语的“词”云，而不是 R 中的单个词

Question

我正在尝试从短语列表中创建一个词云，其中许多是重复的，而不是单个单词。我的数据看起来像这样，我的数据框的一列是短语列表。

df$names <- c("John", "John", "Joseph A", "Mary A", "Mary A", "Paul H C", "Paul H C")

我想制作一个词云，其中所有这些名称都被视为显示频率的单个短语，而不是组成它们的单词。我一直在使用的代码如下所示：

df.corpus <- Corpus(DataframeSource(data.frame(df$names)))
df.corpus <- tm_map(client.corpus, function(x) removeWords(x, stopwords("english")))
#turning that corpus into a tDM
tdm <- TermDocumentMatrix(df.corpus)
m <- as.matrix(tdm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
pal <- brewer.pal(9, "BuGn")
pal <- pal[-(1:2)]
#making a worcloud
png("wordcloud.png", width=1280,height=800)
wordcloud(d$word,d$freq, scale=c(8,.3),min.freq=2,max.words=100, random.order=T, rot.per=.15, colors="black", vfont=c("sans serif","plain"))
dev.off()

这会创建一个词云，但它是每个组成词的，而不是短语的。所以，我看到了“A”的相对频率。“H”、“John”等，而不是“Joseph A”、“Mary A”等的相对频率，这正是我想要的。

我敢肯定这不是那么复杂的修复，但我无法弄清楚！我将不胜感激任何帮助。

score 11 · Accepted Answer

您的困难在于的每个元素df$names都被的功能视为“文档” tm。例如，文档John A包含单词Johnand A。听起来您想保持名称不变，并计算它们的出现次数 - 您可以使用table它。

library(wordcloud)
df<-data.frame(theNames=c("John", "John", "Joseph A", "Mary A", "Mary A", "Paul H C", "Paul H C"))
tb<-table(df$theNames)
wordcloud(names(tb),as.numeric(tb), scale=c(8,.3),min.freq=1,max.words=100, random.order=T, rot.per=.15, colors="black", vfont=c("sans serif","plain"))

在此处输入图像描述

score 4 · Accepted Answer

安装 RWeka 及其依赖项，然后试试这个：

library(RWeka)
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
# ... other tokenizers
tok <- BigramTokenizer
tdmgram <- TermDocumentMatrix(df.corpus, control = list(tokenize = tok))
#... create wordcloud

上面的分词器行将您的文本切成长度为 2 的短语。
更具体地说，它创建了 minlength 2 和 maxlength 2的短语。
使用 Weka 的通用 NGramTokenizer 算法，您可以创建不同的分词器（例如 minlength 1，maxlength 2），并且您我可能想尝试不同的长度。您也可以将它们称为 tok1、tok2，而不是我上面使用的冗长的“BigramTokenizer”。

r - 创建短语的“词”云，而不是 R 中的单个词

2 回答 2

Related

Reference