0

在Introduction to Information Retrieval一书的示例18.4中。术语-文档矩阵使用 SVD 分解。我的问题是为什么 Σ 在示例中是 5*5 矩阵?不应该是5*6的矩阵吗?这是错的吗?

这是《信息检索简介》一书第 18 章的链接。谢谢!

4

1 回答 1

0

书是对的。一个术语文档矩阵(维度为 DxT)被分成三个矩阵的乘积。中间的矩阵(在书中表示为 \Sigma)是维度为 TxT(示例中 T=5)的关键矩阵。

直观地,您可以将此矩阵视为表示术语之间的关系。在最好的情况下,这个矩阵的所有列向量应该是线性独立的,这意味着这形成了术语空间中的基向量,并且术语之间没有依赖关系。然而,这在实践中是不正确的。你会发现这个矩阵的秩通常比 T(比如 T')小几个数量级,这意味着这个矩阵中有 TT' 线性相关的列向量。

然后可以通过仅考虑 T'xT' 项矩阵来对该矩阵进行低阶近似。实际上,您获取矩阵的主要特征值并使用旋转和缩放将向量投影到这些特征向量(视为新基)上。这正是频谱分解或 PCA(或 LSA)所做的。

于 2015-11-11T19:18:13.643 回答