无监督的降维算法将矩阵 NxC1 作为输入,其中 N 是输入向量的数量,C1 是每个向量的分量数(向量的维数)。结果,它返回一个新矩阵 NxC2 (C2 < C1),其中每个向量的分量数量较少。
模糊聚类算法将矩阵 N*C1 作为输入,其中 N 是输入向量的数量,C1 是每个向量的分量数。结果,它返回一个新的矩阵 NxC2(C2 通常低于 C1),其中每个向量的每个分量都表示该向量属于相应簇的程度。
我注意到两类算法的输入和输出在结构上是相同的,只是结果的解释发生了变化。此外,scikit-learn 中没有模糊聚类实现,因此有以下问题:
使用降维算法进行模糊聚类有意义吗?例如,将FeatureAgglomeration或TruncatedSVD应用于从文本数据中提取的 TF-IDF 向量构建的数据集,并将结果解释为模糊聚类是没有意义的吗?