2

假设我有一组100文件,70谈到政治和30数学(我知道这是一个奇怪的组合)。我的目标是通过多维缩放分析、网络分析、som 等方法在 xy 上表示它们。当我考虑整套文档时,我会这样做:

  • 我制作了一个包含 100 个元素的语料库 ( docs );
  • 从语料库中,我创建了一个文档术语矩阵(dtm);
  • 从 dtm 我创建了一个关于组成文档的术语或文档本身的距离矩阵(dist)(根据我想要表示的内容)。

显然我可以为两者制作单独的图形,但我想做一些不同的事情。我有三个语料库(docs_totdocs_Pdocs_M)和三个文档术语矩阵(dtm_totdtm_Pdtm_M)。

解决方案:

1) 表示 xy 上的文件总数,对政治文件和数学文件进行不同的着色。通过这种方式,我可以查看它们是否代表 xy 上的自然集群。

2) 对差异进行网络分析。知道dtm_P只有dtm_tot文档 (100)的子集 (70),是否有一种概念性的方法来子跟踪,例如dtm_Pdtm_tot ?

4

1 回答 1

2

听起来您可能会考虑使用comparison.cloud(). wordcloud这是软件包帮助页面中的一个示例:

library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

在此处输入图像描述

这也适用于两个以上的组,如图所示,例如,here

希望这可以帮助。

于 2016-04-01T07:07:24.103 回答