假设我有一组100
文件,70
谈到政治和30
数学(我知道这是一个奇怪的组合)。我的目标是通过多维缩放分析、网络分析、som 等方法在 xy 上表示它们。当我考虑整套文档时,我会这样做:
- 我制作了一个包含 100 个元素的语料库 ( docs );
- 从语料库中,我创建了一个文档术语矩阵(dtm);
- 从 dtm 我创建了一个关于组成文档的术语或文档本身的距离矩阵(dist)(根据我想要表示的内容)。
显然我可以为两者制作单独的图形,但我想做一些不同的事情。我有三个语料库(docs_tot、docs_P、docs_M)和三个文档术语矩阵(dtm_tot、dtm_P、dtm_M)。
解决方案:
1) 表示 xy 上的文件总数,对政治文件和数学文件进行不同的着色。通过这种方式,我可以查看它们是否代表 xy 上的自然集群。
2) 对差异进行网络分析。知道dtm_P只有dtm_tot文档 (100)的子集 (70),是否有一种概念性的方法来子跟踪,例如dtm_P和dtm_tot ?