r - 文档术语矩阵之间的“差异”

Question

假设我有一组100文件，70谈到政治和30数学（我知道这是一个奇怪的组合）。我的目标是通过多维缩放分析、网络分析、som 等方法在 xy 上表示它们。当我考虑整套文档时，我会这样做：

我制作了一个包含 100 个元素的语料库 ( docs )；
从语料库中，我创建了一个文档术语矩阵（dtm）；
从 dtm 我创建了一个关于组成文档的术语或文档本身的距离矩阵（dist）（根据我想要表示的内容）。

显然我可以为两者制作单独的图形，但我想做一些不同的事情。我有三个语料库（docs_tot、docs_P、docs_M）和三个文档术语矩阵（dtm_tot、dtm_P、dtm_M）。

解决方案：

1) 表示 xy 上的文件总数，对政治文件和数学文件进行不同的着色。通过这种方式，我可以查看它们是否代表 xy 上的自然集群。

2) 对差异进行网络分析。知道dtm_P只有dtm_tot文档 (100)的子集 (70)，是否有一种概念性的方法来子跟踪，例如dtm_P和dtm_tot ？

score 2 · Accepted Answer

听起来您可能会考虑使用comparison.cloud(). wordcloud这是软件包帮助页面中的一个示例：

library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

这也适用于两个以上的组，如图所示，例如，here。

希望这可以帮助。

r - 文档术语矩阵之间的“差异”

1 回答 1

Related