我正在使用 WEKA 执行文本收集。假设我有 n 个带有文本的文档,我计算 TFID 作为每个文档的特征向量,然后计算每个文档之间的余弦相似度。它生成 nXn 矩阵。现在我想知道如何在 k-mean 算法中使用这个 nxn 矩阵。我知道我可以应用一些降维,例如 MDS 或 PCA。我在这里感到困惑的是,在应用降维之后,我将如何识别该文档本身,例如,如果我有 3 个文档 d1,d2 d3,那么余弦会给我 d11,d12,d13 d21,d22,d23 d31,d32 之间的距离,d33 现在我不确定 PCA 或 MDS 之后会输出什么,以及我将如何识别 kmean 之后的文档。请建议。我希望我已经清楚地提出了我的问题
问问题
788 次