LSA 中使用 SVD 来获取潜在语义信息。我对 SVD 矩阵的解释感到困惑。
我们首先建立一个文档术语矩阵。然后使用 SVD 将其分解为 3 个矩阵。
例如:
doc-term 矩阵 M1 是 M x N,其中:
M = the number of documents
N = the number of terms
M1被分解为:
M1 = M2 * M3 * M4, where:
M2: M x k
M3: k x k
M4: k x N
我看到如下解释:
M2的第 k列代表语义相似的类别。M4的第 k行代表主题。
我的问题是:
为什么 k 会像上面那样解释?我们怎么知道它是相似的语义和主题?
为什么相似的语义等于主题?
为什么 k 在 M2 和 M4 之间的解释不同
如何解读M3?
我真的很困惑。似乎解释是完全武断的。这就是潜在的意思吗?