1

我正在研究神经网络,为了减少通过文档构造的术语-文档矩阵的维度以及其中包含 tf-idf 值的各种术语,我需要应用 PCA。像这样的东西

           Term 1       Term 2       Term 3       Term 4. ..........
Document 1 

Document 2            tfidf values of terms per document

Document 3 
.
.
.
.
.

PCA 的工作原理是获取数据的平均值,然后减去平均值,然后对协方差矩阵使用以下公式

令矩阵 M 为维度为 NxN 的术语-文档矩阵

协方差矩阵变为

( M x transpose(M))/N-1 

然后我们计算特征值和特征向量作为神经网络中的特征向量。我无法理解的是协方差矩阵的重要性以及它找到协方差的维度。

因为如果我们考虑简单的二维 X,Y,就可以理解。这里关联了哪些维度?

谢谢

4

1 回答 1

0

潜在语义分析 很好地描述了这种关系。它还解释了如何首先使用完整的文档术语矩阵,然后使用简化的矩阵,将术语列表(向量)映射到近似匹配的文档——即为什么要减少。
另请参阅 Making-sense-of-PCA-eigenvectors-eigenvalues。(那里的许多不同答案表明没有一个对每个人都是直观的。)

于 2012-11-12T14:09:43.790 回答