0

LSA 中使用 SVD 来获取潜在语义信息。我对 SVD 矩阵的解释感到困惑。

我们首先建立一个文档术语矩阵。然后使用 SVD 将其分解为 3 个矩阵。

例如:

doc-term 矩阵 M1 是 M x N,其中:

M = the number of documents
N = the number of terms

M1被分解为:

M1 = M2 * M3 * M4, where:

M2: M x k

M3: k x k

M4: k x N

我看到如下解释:

M2的第 k代表语义相似的类别。M4的第 k代表主题

我的问题是:

  1. 为什么 k 会像上面那样解释?我们怎么知道它是相似的语义和主题?

  2. 为什么相似的语义等于主题?

  3. 为什么 k 在 M2 和 M4 之间的解释不同

  4. 如何解读M3?

我真的很困惑。似乎解释是完全武断的。这就是潜在的意思吗?

4

1 回答 1

1

我强烈推荐阅读 Manning 和 Schutze 的 SNLP 圣经中的信息检索章节。在 5 页中,它解释了您想了解的有关 LSI 和 SVD 的所有信息。

你会发现这样的段落:

在此处输入图像描述

于 2014-01-10T03:31:33.757 回答