我正在研究神经网络,为了减少通过文档构造的术语-文档矩阵的维度以及其中包含 tf-idf 值的各种术语,我需要应用 PCA。像这样的东西
Term 1 Term 2 Term 3 Term 4. ..........
Document 1
Document 2 tfidf values of terms per document
Document 3
.
.
.
.
.
PCA 的工作原理是获取数据的平均值,然后减去平均值,然后对协方差矩阵使用以下公式
令矩阵 M 为维度为 NxN 的术语-文档矩阵
协方差矩阵变为
( M x transpose(M))/N-1
然后我们计算特征值和特征向量作为神经网络中的特征向量。我无法理解的是协方差矩阵的重要性以及它找到协方差的维度。
因为如果我们考虑简单的二维 X,Y,就可以理解。这里关联了哪些维度?
谢谢